Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2018

Практикум 7: EMBOSS и протеомы

Формат отчёта: html-страница со ссылкой со страницы семестра.

Обязательно запишитесь в очередь, номер практикума – 7.

Дедлайны: 02:00 a.m. 03 апреля (мягкий) и 02:00 a.m. 10 апреля (жесткий).

Упражнения по EMBOSS и grep тренировочные, их нужно проделать, чтобы на коллоквиуме 9 апреля быстро выполнить аналогичное задание. EMBOSS установлен на kodomo.

Задание 1. Частоты остатков в протеомах

Настоятельно рекомендую читать указания.

  1. Скачайте из UniProt два полных протеома в fasta-формате: Escherichia coli (штамма K12) и бактерии или археи, из которой взят белок, описанный вами в практикуме 5.

  2. Посчитайте число последовательностей и число аминокислот (не число разных, а общее число) в каждом протеоме.
  3. Программой wordcount посчитайте частоты (в штуках) букв (аминокислотных остатков) в протеомах.
  4. Вычислите процент каждой буквы в каждом протеоме. Создайте единую таблицу процентов букв в обоих организмах, упорядоченную по убыванию процента в вашем организме. Посчитайте разность процентов для каждой буквы.

Отчетная html-страница должна содержать:

  1. идентификаторы протеомов, количество последовательностей и аминокислот в них;
  2. html-таблицу из четырёх столбцов (таблица должна иметь заголовки столбцов!): остаток (однобуквенный код), процент данного остатка в протеоме вашего организма, процент в протеоме E. coli str. K12, разность процентов;

  3. комментарий к таблице с описанием основных различий протеомов: одинаковые ли остатки входят в три самых частых и в три самых редких (среди 20 стандартных, селеноцистеин U игнорируйте), для какого остатка разница самая большая в пользу E. coli и для какого — в пользу вашей бактерии/археи.

Задание 2* (дополнительное)

Изучите программу compseq. Напишите небольшую "справку для пользователя" о разнице между программами wordcount и compseq. Какую программу вы бы сами выбрали для выполнения работы, аналогичной заданию 1, и почему?

Упражнения по EMBOSS

Настоятельно рекомендую читать указания.

  1. Программой infoseq:
    • выведите всю информацию о последовательностях одного fasta-файла (например, одного из протеомов, скачанных ранее);
    • выведите только колонки "имя", "код доступа (AC)", "длина" и "описание";
    • перенаправьте выдачу в программу less;
    • запишите выдачу в файл;
    • запишите в файл только те строки, в которых есть выражение "PE=1";
    • посчитайте число строк с PE=1 без записи в файл.
  2. Запишите в файл help какой-нибудь программы EMBOSS (т.е., то. что выдаёт программа, будучи запущена с опцией -help).

  3. Извлеките из присоединённого банка Swiss-Prot полные записи (т.е., в формате UniProt) всех белков, чей ID начинается на "HXA" и кончается "HUMAN".

    • C помощью grep посмотрите содержимое полей ID, DE, FT этих белков.
  4. С помощью конвейера entret → grep → less просмотрите особенности (поле FT) белка с ID "POLG_FMDVA" банка Swiss-Prot.
    • Создайте конвейер, который записывает в файл информацию об особенностях этого белка с ключом CHAIN. "Ключ" (Feature Key) – это слово, идущее после букв FT, перед координатами особенности.

Упражнения по grep (и рег. выражениям)

Файл для упражнений по grep: /P/y18/term2/block2/grep.txt, можете скопировать файл к себе в домашнюю папку.

С помощью grep выведите строки:

  1. cодержащие "word" (13 строк)
  2. начинающиеся на "word" (9 строк)
  3. заканчивающиеся на "word" (7 строк)
  4. только строки, полностью равные "line" (3 строки)
  5. строки "line" с любым количеством пробельных символов с любой из сторон (и больше ничего) (7 строк)
  6. содержащие "word" или "Word" (18 строк)
  7. содержащие "word" в любом регистре (20 строк)
  8. содержащие "word" или "Word" повторяющиеся подряд от 3 до 5 раз (включительно) (2 строки)
  9. содержащие "word", "ord" или "Word" (23 строки)
  10. содержащие цифры (15 строк)
  11. содержащие только валидные десятичные числа, разделенные любым количеством пробельных символов, запятых или двоеточий (9 строк)
  12. содержащие либо "first", либо "second" (8 строк)
  13. не содержащие ни "word", ни "first", ни "second" (36 строк)
  14. *содержащие только что-то одно из "first" и "second", но можно с повторениями (7 строк)
  15. *содержащие "word" или "Word" как отдельное слово (10 строк)
  16. **содержащие "word" в любом регистре, повторяющийся подряд больше 2 раз, при этом повторения должны быть точными (т.е. с сохранением регистра букв) (7 строк)