Учебная страница курса биоинформатики,
год поступления 2020
Практикум 9. EMBOSS, bash
На следующем занятии будет ~получасовая контрольная на владение материалом этого и предыдущего практикумов.
— ИР
Отчет за практикум: скрипт pr9.sh из последнего упражнения. Скрипт должен лежать на kodomo в папке ~/term2/pr9/, никаких отчетов по упражнениям в html не нужно. При записи в очередь вместо адреса страницы указывайте прочерк. Дедлайны: 01:00 AM 21 апреля (мягкий) и 01:00 AM 28 апреля (жесткий).
Нужно освоить из EMBOSS:
- формат USA из презентации, list-файлы;
- получение справки по командам;
- скачивание полных записей и только последовательностей из Swiss-Prot и UniProtKB;
- перенаправление стандартных потоков.
Нужно освоить в bash:
- перенаправление потоков (вспомнить);
команды cut, tr, sort, grep;
переменные, циклы for .. in .., подстановку выдачи команды $(command);
- создание и запуск сценариев (вспомнить).
Упражнения по командам EMBOSS и обработке строк (каждое упражнение выполняется одним конвейером, а не несколькими отдельными командами):
записать справку по команде entret в файл entret_help.txt
вывести расширенную помощь по команде infoseq и перенаправить её в less (не помешает и почитать, дальше понадобится)
про запись ENO_ECOLI напечатать в консоль следующую информацию: ID, AC, длину (с помощью infoseq)
про все белки синего кита из Swiss-Prot (мнемоника организма BALMU) вывести в консоль ID, AC и длину, но без заголовков, без посторонних сообщений
- то же самое, но с запятой в качестве разделителя столбцов (не так просто, как кажется на первый взгляд)
с помощью только entret и grep посчитать, сколько в Swiss-Prot записей о белках синего кита
получить строчки, соответствующие полю FT, из записи ENO_ECOLI, записать их в файл eno_ecoli.ft
как в предыдущем, но только строки FT, которые содержат ключи локальных особенностей (правильный паттерн поиска для grep)
как в предыдущем, но перенаправить в less, а не в файл, и в виде 3 колонок через запятую: FT,ключ,координата/ы (обратите внимание на опцию -s программы tr)
напечатать в консоль все ключи (без повторений) из таблицы локальных особенностей записи ENO_BACSU
напечатать в консоль только аминокислоты с 5 по 25 (включительно) из всех белков синего кита в формате raw
(со звездочкой) то же самое, но заменить все прописные буквы на строчные (tr)
Упражнения на переменные, циклы и сценарии:
с помощью цикла for и предварительно составленного файла со списком AC (или ID) белков кита, для каждого белка напечатать количество ссылок на записи из базы GO по одному числу в строке
как в предыдущем, но теперь каждая строка должна быть в формате "ID_белка: число" (проще всего сохранить число и ID в переменные, а потом напечатать нужную строку с помощью echo)
создать скрипт, который будет выполнять упражнения 5, 10, 11 и 14, назвать его pr9.sh; должна быть возможность запускать его без указания интерпретатора, т.е., например, командой ./pr9.sh