Учебная страница курса биоинформатики,
год поступления 2020
Контрольная UniProt/EMBOSS/bash
Время на выполнение: 30 минут. Результат: скрипт ~/term2/pr10/cw.sh. Должна быть возможность (по крайней мере для вас) запускать его без указания интерпретатора, т.е., например, командой ./cw.sh. Наличие и правильность каких-либо промежуточных файлов не проверяется.
Каждый пункт – одна команда, конвейер (pipeline) или цикл, но не обязательно в одну строчку (особенно это касается циклов).
Дополнительные задания не заменяют обязательных. Более того, они оцениваются в зависимости от количества людей, которые их попытались сделать – чем больше попыток, тем меньше баллов получат те, кто сделал. Безнадежные попытки не учитываются
Задания
- Определить, какую мнемонику организма используют в Swiss-Prot для европейского ежа.
Скачать полные записи всех белков ежа из Swiss-Prot в файл hedgehog.swiss в текущей папке. Потом больше не мучаем Swiss-Prot, работаем только с этим файлом в качестве источника данных для следующих команд.
Сохранить страницу помощи (-help) программы infoseq в файл infoseq.help. Не помешает почитать, если еще не читали, потребуется в следующих командах.
Сохранить в файл hedgehog.csv таблицу из 3 колонок: ID, AC, длина. Разделителем колонок должна быть запятая, заголовка быть не должно.
Сохранить список ID скаченных белков в файл hedgehog.ids по одному в строке.
С помощью цикла и hedgehog.ids напечатать в консоль количество ссылок на базу данных GO в записях. Для каждой записи надо напечатать строку в формате "ID,number" (без кавычек, без пробелов). Порядок строк не важен, заголовки столбцов не нужны. Если ссылок в записи нет, то можно указать 0, или пропустить запись.
[дополнительное] Напечатать в консоль количество записей из hedgehog.swiss, описывающих митохондриальные белки.
[дополнительное] Напечатать в консоль таблицу из двух колонок, в первой – ID белка, во второй – координаты трансмембранных участков (TRANSMEM) в том формате, в котором они указаны в таблице локальных особенностей (например, 65..71). Если в белке таких участков нет, для него не должно быть строки. Если участков несколько, то каждый должен быть на отдельной строке.
Не забудьте проверить, что скрипт запускается и делает то, что должен!