Учебная страница курса биоинформатики,
год поступления 2017

Практикум 6: EMBOSS и протеомы

Формат отчёта: html-страница со ссылкой со страницы семестра.

Срок выполнения без потерь балов - 26 марта, крайний срок - 2 апреля. Упражнения по EMBOSS и sed тренировочные, их нужно проделать, чтобы на коллоквиуме 3 апреля быстро выполнить аналогичное задание. EMBOSS установлен на kodomo.

Задание 1. Частоты остатков в протеомах

Настоятельно рекомендую читать указания.

Скачайте из UniProt два полных протеома в fasta-формате: Escherichia coli (штамма K12) и бактерии или археи, из которой взят белок, описанный вами в практикуме 5.
Посчитайте число последовательностей и число аминокислот (не число разных, а общее число) в каждом протеоме.
Программой wordcount посчитайте частоты (в штуках) букв (аминокислотных остатков) в протеомах.
Вычислите процент каждой буквы в каждом протеоме. Создайте единую таблицу процентов букв в обоих организмах, упорядоченную по убыванию процента в вашем организме. Посчитайте разность процентов для каждой буквы.

Отчетная html-страница должна содержать:

идентификаторы протеомов, количество последовательностей и аминокислот в них;
html-таблицу из четырёх столбцов (таблица должна иметь заголовки столбцов!): остаток (однобуквенный код), процент данного остатка в протеоме вашего организма, процент в протеоме E. coli K12, разность процентов;
комментарий к таблице с описанием основных различий протеомов: одинаковые ли остатки входят в три самых частых и в три самых редких (среди 20 стандартных, селеноцистеин U игнорируйте), для какого остатка разница самая большая в пользу E. coli и для какого — в пользу вашей бактерии/археи.

Задание 2* (необязательное)

Изучите программу compseq. Напишите небольшую "справку для пользователя" о разнице между программами wordcount и compseq. Какую программу вы бы сами выбрали для выполнения работы, аналогичной заданию 1, и почему?

Упражнения по EMBOSS

Настоятельно рекомендую читать указания.

Программой infoseq:
- выведите всю информацию о последовательностях одного fasta-файла (например, одного из протеомов, скачанных ранее);
- выведите только колонки "имя", "код доступа (AC)", "длина" и "описание";
- перенаправьте выдачу в программу less;
- запишите выдачу в файл;
- запишите в файл только те строки, в которых есть выражение "PE=1";
- посчитайте число строк с PE=1 без записи в файл.
Запишите в файл help какой-нибудь программы EMBOSS (т.е., то. что выдаёт программа, будучи запущена с опцией -help).
Извлеките из присоединённого банка Swiss-Prot полные записи (т.е., в формате UniProt) всех белков, чей ID начинается на "HXA" и кончается "HUMAN".
- C помощью grep посмотрите содержимое полей ID, DE, FT этих белков.
Создайте файл с последовательностью ДНК-связываюшего домена белка Hox-A1 человека в fasta-формате.
- С помощью одной командной строки (конвейера seqret и descseq) создайте файл с последовательностью того же домена, но с описанием, изменённым на "Homeobox Hox-A1".
С помощью конвейера entret → grep → less просмотрите особенности (поле FT) белка с ID "POLG_FMDVA" банка Swiss-Prot.
- Создайте конвейер, который записывает в файл информацию об особенностях этого белка с ключом CHAIN. "Ключ" (Feature Key) – это слово, идущее после букв FT, перед координатами особенности.

Упражнения по sed

Удалить из файла последнюю строку.
Удалить из файла строки 2, 5 и 12.
Вывести только 2, 5 и 12 строки файла.
Вывести только четные строки файла (второй группе не рассказал про такой тип адреса, можете почитать help, на контрольной/коллоквиуме заданий на этот тип адреса не будет).
Заменить все вхождения слова "first" на слово "second".
Добавить после всех цифр в файле точку ("Text 123 text 1 and 19" -> "Text 1.2.3. text 1. and 1.9.").
Добавить после всех чисел в файле точку ("Text 123 text 1 and 19" -> "Text 123. text 1. and 19.").
Отформатировать заголовки fasta файла, оставив, например, только идентификатор последовательности.
*Заменить в файле все русские буквы аВеКМНорсТух на английские aBeKMHopcTyx. Очень интересно, как Вы будете проверять результат)

Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2017

Практикум 6: EMBOSS и протеомы

Задание 1. Частоты остатков в протеомах

Задание 2* (необязательное)

Упражнения по EMBOSS

Упражнения по sed

Kodomo

Пользователь

Учебная страница курса биоинформатики, год поступления 2017

Практикум 6: EMBOSS и протеомы

Задание 1. Частоты остатков в протеомах

Задание 2* (необязательное)

Упражнения по EMBOSS

Упражнения по sed

Учебная страница курса биоинформатики,
год поступления 2017