Учебная страница курса биоинформатики,
год поступления 2017
Практикум 6: EMBOSS и протеомы
Формат отчёта: html-страница со ссылкой со страницы семестра.
Срок выполнения без потерь балов - 26 марта, крайний срок - 2 апреля. Упражнения по EMBOSS и sed тренировочные, их нужно проделать, чтобы на коллоквиуме 3 апреля быстро выполнить аналогичное задание. EMBOSS установлен на kodomo.
Задание 1. Частоты остатков в протеомах
Настоятельно рекомендую читать указания.
Скачайте из UniProt два полных протеома в fasta-формате: Escherichia coli (штамма K12) и бактерии или археи, из которой взят белок, описанный вами в практикуме 5.
- Посчитайте число последовательностей и число аминокислот (не число разных, а общее число) в каждом протеоме.
- Программой wordcount посчитайте частоты (в штуках) букв (аминокислотных остатков) в протеомах.
- Вычислите процент каждой буквы в каждом протеоме. Создайте единую таблицу процентов букв в обоих организмах, упорядоченную по убыванию процента в вашем организме. Посчитайте разность процентов для каждой буквы.
Отчетная html-страница должна содержать:
- идентификаторы протеомов, количество последовательностей и аминокислот в них;
html-таблицу из четырёх столбцов (таблица должна иметь заголовки столбцов!): остаток (однобуквенный код), процент данного остатка в протеоме вашего организма, процент в протеоме E. coli K12, разность процентов;
комментарий к таблице с описанием основных различий протеомов: одинаковые ли остатки входят в три самых частых и в три самых редких (среди 20 стандартных, селеноцистеин U игнорируйте), для какого остатка разница самая большая в пользу E. coli и для какого — в пользу вашей бактерии/археи.
Задание 2* (необязательное)
Изучите программу compseq. Напишите небольшую "справку для пользователя" о разнице между программами wordcount и compseq. Какую программу вы бы сами выбрали для выполнения работы, аналогичной заданию 1, и почему?
Упражнения по EMBOSS
Настоятельно рекомендую читать указания.
- Программой infoseq:
- выведите всю информацию о последовательностях одного fasta-файла (например, одного из протеомов, скачанных ранее);
- выведите только колонки "имя", "код доступа (AC)", "длина" и "описание";
- перенаправьте выдачу в программу less;
- запишите выдачу в файл;
- запишите в файл только те строки, в которых есть выражение "PE=1";
- посчитайте число строк с PE=1 без записи в файл.
Запишите в файл help какой-нибудь программы EMBOSS (т.е., то. что выдаёт программа, будучи запущена с опцией -help).
Извлеките из присоединённого банка Swiss-Prot полные записи (т.е., в формате UniProt) всех белков, чей ID начинается на "HXA" и кончается "HUMAN".
- C помощью grep посмотрите содержимое полей ID, DE, FT этих белков.
- Создайте файл с последовательностью ДНК-связываюшего домена белка Hox-A1 человека в fasta-формате.
- С помощью одной командной строки (конвейера seqret и descseq) создайте файл с последовательностью того же домена, но с описанием, изменённым на "Homeobox Hox-A1".
- С помощью конвейера entret → grep → less просмотрите особенности (поле FT) белка с ID "POLG_FMDVA" банка Swiss-Prot.
Создайте конвейер, который записывает в файл информацию об особенностях этого белка с ключом CHAIN. "Ключ" (Feature Key) – это слово, идущее после букв FT, перед координатами особенности.
Упражнения по sed
- Удалить из файла последнюю строку.
- Удалить из файла строки 2, 5 и 12.
- Вывести только 2, 5 и 12 строки файла.
- Вывести только четные строки файла (второй группе не рассказал про такой тип адреса, можете почитать help, на контрольной/коллоквиуме заданий на этот тип адреса не будет).
- Заменить все вхождения слова "first" на слово "second".
Добавить после всех цифр в файле точку ("Text 123 text 1 and 19" -> "Text 1.2.3. text 1. and 1.9.").
Добавить после всех чисел в файле точку ("Text 123 text 1 and 19" -> "Text 123. text 1. and 19.").
- Отформатировать заголовки fasta файла, оставив, например, только идентификатор последовательности.
- *Заменить в файле все русские буквы аВеКМНорсТух на английские aBeKMHopcTyx. Очень интересно, как Вы будете проверять результат)