Учебная страница курса биоинформатики,
год поступления 2018
Практикум 7: EMBOSS и протеомы
Формат отчёта: html-страница со ссылкой со страницы семестра.
Упражнения по EMBOSS и grep тренировочные, их нужно проделать, чтобы на коллоквиуме 9 апреля быстро выполнить аналогичное задание. EMBOSS установлен на kodomo.
Задание 1. Частоты остатков в протеомах
Настоятельно рекомендую читать указания.
Скачайте из UniProt два полных протеома в fasta-формате: Escherichia coli (штамма K12) и бактерии или археи, из которой взят белок, описанный вами в практикуме 5.
- Посчитайте число последовательностей и число аминокислот (не число разных, а общее число) в каждом протеоме.
- Программой wordcount посчитайте частоты (в штуках) букв (аминокислотных остатков) в протеомах.
- Вычислите процент каждой буквы в каждом протеоме. Создайте единую таблицу процентов букв в обоих организмах, упорядоченную по убыванию процента в вашем организме. Посчитайте разность процентов для каждой буквы.
Отчетная html-страница должна содержать:
- идентификаторы протеомов, количество последовательностей и аминокислот в них;
html-таблицу из четырёх столбцов (таблица должна иметь заголовки столбцов!): остаток (однобуквенный код), процент данного остатка в протеоме вашего организма, процент в протеоме E. coli str. K12, разность процентов;
комментарий к таблице с описанием основных различий протеомов: одинаковые ли остатки входят в три самых частых и в три самых редких (среди 20 стандартных, селеноцистеин U игнорируйте), для какого остатка разница самая большая в пользу E. coli и для какого — в пользу вашей бактерии/археи.
Задание 2* (дополнительное)
Изучите программу compseq. Напишите небольшую "справку для пользователя" о разнице между программами wordcount и compseq. Какую программу вы бы сами выбрали для выполнения работы, аналогичной заданию 1, и почему?
Упражнения по EMBOSS
Настоятельно рекомендую читать указания.
- Программой infoseq:
- выведите всю информацию о последовательностях одного fasta-файла (например, одного из протеомов, скачанных ранее);
- выведите только колонки "имя", "код доступа (AC)", "длина" и "описание";
- перенаправьте выдачу в программу less;
- запишите выдачу в файл;
- запишите в файл только те строки, в которых есть выражение "PE=1";
- посчитайте число строк с PE=1 без записи в файл.
Запишите в файл help какой-нибудь программы EMBOSS (т.е., то. что выдаёт программа, будучи запущена с опцией -help).
Извлеките из присоединённого банка Swiss-Prot полные записи (т.е., в формате UniProt) всех белков, чей ID начинается на "HXA" и кончается "HUMAN".
- C помощью grep посмотрите содержимое полей ID, DE, FT этих белков.
- С помощью конвейера entret → grep → less просмотрите особенности (поле FT) белка с ID "POLG_FMDVA" банка Swiss-Prot.
Создайте конвейер, который записывает в файл информацию об особенностях этого белка с ключом CHAIN. "Ключ" (Feature Key) – это слово, идущее после букв FT, перед координатами особенности.
Упражнения по grep (и рег. выражениям)
Файл для упражнений по grep: /P/y18/term2/block2/grep.txt, можете скопировать файл к себе в домашнюю папку.
С помощью grep выведите строки:
- cодержащие "word" (13 строк)
- начинающиеся на "word" (9 строк)
- заканчивающиеся на "word" (7 строк)
- только строки, полностью равные "line" (3 строки)
- строки "line" с любым количеством пробельных символов с любой из сторон (и больше ничего) (7 строк)
- содержащие "word" или "Word" (18 строк)
- содержащие "word" в любом регистре (20 строк)
- содержащие "word" или "Word" повторяющиеся подряд от 3 до 5 раз (включительно) (2 строки)
- содержащие "word", "ord" или "Word" (23 строки)
- содержащие цифры (15 строк)
- содержащие только валидные десятичные числа, разделенные любым количеством пробельных символов, запятых или двоеточий (9 строк)
- содержащие либо "first", либо "second" (8 строк)
- не содержащие ни "word", ни "first", ни "second" (36 строк)
- *содержащие только что-то одно из "first" и "second", но можно с повторениями (7 строк)
- *содержащие "word" или "Word" как отдельное слово (10 строк)
- **содержащие "word" в любом регистре, повторяющийся подряд больше 2 раз, при этом повторения должны быть точными (т.е. с сохранением регистра букв) (7 строк)