Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2012

Пересдача контрольной работы

В файле (книге Excel) P:\y12\term1\block3\PDB_bacsu.xlsx содержится сгенерированная банком PDB информация о записях PDB, описывающих белки бактерии Bacillus subtilis. В частности, там приведены коды доступа (AC) записей банка последовательностей белков UniProt, описывающих последовательности каждой цепи.

В файле P:\y12\term1\block3\bacsu.txt содержится информация о записях UniProt, описывающих белки Bacillus subtilis. В каждой строке файла сопоставляются идентификатор (Name) и код доступа (Accesiion) одной и той же записи, между ними стоят пробелы.

Ваша задача:

  1. Скопировать файл PDB_bacsu.xlsx в свою директорию.
  2. Открыть этот файл в Excel. Сохранить его под именем xxxx_cwr.xlsx (xxxx – ваша фамилия) – это отчётный файл.

  3. Импортировать в Excel файл bacsu.txt и поместить его содержимое (должно получится два столбца) на отдельный лист отчётного файла. Назвать лист c информацией из PDB "PDB report", а лист с информацией из файла bacsu.txt – "Names".

  4. Пользуясь функцией VLOOKUP, создать столбец на листе "PDB report", на котором в каждой строке рядом с кодом доступа стоял бы идентификатор того же белка или (если на листе "Names" этого кода доступа нет) – сообщение об ошибке. (Подсказка: для этого придётся немного переделать лист "Names").

  5. Пользуясь функцией COUNTIF, посчитать (в ячейке на отдельном листе) количество цепей PDB в перечне из "PDB report", для которых не удалось найти идентификатора в файле bacsu.txt
  6. Сохранить отчётный файл, закрыть Excel, удалить свои копии исходных файлов.