Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2020

Контрольная UniProt/EMBOSS/bash

Время на выполнение: 30 минут. Результат: скрипт ~/term2/pr10/cw.sh. Должна быть возможность (по крайней мере для вас) запускать его без указания интерпретатора, т.е., например, командой ./cw.sh. Наличие и правильность каких-либо промежуточных файлов не проверяется.

Каждый пункт – одна команда, конвейер (pipeline) или цикл, но не обязательно в одну строчку (особенно это касается циклов).

Дополнительные задания не заменяют обязательных. Более того, они оцениваются в зависимости от количества людей, которые их попытались сделать – чем больше попыток, тем меньше баллов получат те, кто сделал. Безнадежные попытки не учитываются :)

Задания

  1. Определить, какую мнемонику организма используют в Swiss-Prot для европейского ежа.
  2. Скачать полные записи всех белков ежа из Swiss-Prot в файл hedgehog.swiss в текущей папке. Потом больше не мучаем Swiss-Prot, работаем только с этим файлом в качестве источника данных для следующих команд.

  3. Сохранить страницу помощи (-help) программы infoseq в файл infoseq.help. Не помешает почитать, если еще не читали, потребуется в следующих командах.

  4. Сохранить в файл hedgehog.csv таблицу из 3 колонок: ID, AC, длина. Разделителем колонок должна быть запятая, заголовка быть не должно.

  5. Сохранить список ID скаченных белков в файл hedgehog.ids по одному в строке.

  6. С помощью цикла и hedgehog.ids напечатать в консоль количество ссылок на базу данных GO в записях. Для каждой записи надо напечатать строку в формате "ID,number" (без кавычек, без пробелов). Порядок строк не важен, заголовки столбцов не нужны. Если ссылок в записи нет, то можно указать 0, или пропустить запись.

  7. [дополнительное] Напечатать в консоль количество записей из hedgehog.swiss, описывающих митохондриальные белки.

  8. [дополнительное] Напечатать в консоль таблицу из двух колонок, в первой – ID белка, во второй – координаты трансмембранных участков (TRANSMEM) в том формате, в котором они указаны в таблице локальных особенностей (например, 65..71). Если в белке таких участков нет, для него не должно быть строки. Если участков несколько, то каждый должен быть на отдельной строке.

Не забудьте проверить, что скрипт запускается и делает то, что должен!