Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2020

Практикум 9. EMBOSS, bash

На следующем занятии будет ~получасовая контрольная на владение материалом этого и предыдущего практикумов.

— ИР

Отчет за практикум: скрипт pr9.sh из последнего упражнения. Скрипт должен лежать на kodomo в папке ~/term2/pr9/, никаких отчетов по упражнениям в html не нужно. При записи в очередь вместо адреса страницы указывайте прочерк. Дедлайны: 01:00 AM 21 апреля (мягкий) и 01:00 AM 28 апреля (жесткий).

Нужно освоить из EMBOSS:

Нужно освоить в bash:

Упражнения по командам EMBOSS и обработке строк (каждое упражнение выполняется одним конвейером, а не несколькими отдельными командами):

  1. записать справку по команде entret в файл entret_help.txt

  2. вывести расширенную помощь по команде infoseq и перенаправить её в less (не помешает и почитать, дальше понадобится)

  3. про запись ENO_ECOLI напечатать в консоль следующую информацию: ID, AC, длину (с помощью infoseq)

  4. про все белки синего кита из Swiss-Prot (мнемоника организма BALMU) вывести в консоль ID, AC и длину, но без заголовков, без посторонних сообщений

  5. то же самое, но с запятой в качестве разделителя столбцов (не так просто, как кажется на первый взгляд)
  6. с помощью только entret и grep посчитать, сколько в Swiss-Prot записей о белках синего кита

  7. получить строчки, соответствующие полю FT, из записи ENO_ECOLI, записать их в файл eno_ecoli.ft

  8. как в предыдущем, но только строки FT, которые содержат ключи локальных особенностей (правильный паттерн поиска для grep)

  9. как в предыдущем, но перенаправить в less, а не в файл, и в виде 3 колонок через запятую: FT,ключ,координата/ы (обратите внимание на опцию -s программы tr)

  10. напечатать в консоль все ключи (без повторений) из таблицы локальных особенностей записи ENO_BACSU

  11. напечатать в консоль только аминокислоты с 5 по 25 (включительно) из всех белков синего кита в формате raw

  12. (со звездочкой) то же самое, но заменить все прописные буквы на строчные (tr)

Упражнения на переменные, циклы и сценарии:

  1. с помощью цикла for и предварительно составленного файла со списком AC (или ID) белков кита, для каждого белка напечатать количество ссылок на записи из базы GO по одному числу в строке

  2. как в предыдущем, но теперь каждая строка должна быть в формате "ID_белка: число" (проще всего сохранить число и ID в переменные, а потом напечатать нужную строку с помощью echo)

  3. создать скрипт, который будет выполнять упражнения 5, 10, 11 и 14, назвать его pr9.sh; должна быть возможность запускать его без указания интерпретатора, т.е., например, командой ./pr9.sh