Учебная страница курса биоинформатики,
год поступления 2015
Практикум 8: протеомы и EMBOSS
Формат отчёта по первому заданию: html-страница со ссылкой с заглавной страницы семестра.
Остальные задания тренировочные: их нужно проделать, чтобы на коллоквиуме 19 апреля быстро выполнить аналогичное задание.
Задание 1. Частоты остатков в протеомах
Скачайте из Uniprot два полных протеома: 1) Escherichia coli (штамма K12) и 2) своей бактерии или археи (столбец G таблицы), в fasta-формате. Указания: с заглавной страницы Uniprot идёте по гиперссылке Proteomes. Протеом E. coli K12 будет. скорее всего, на первой странице списка. Чтобы найти другой протеом, перейдите на Advanced, выберите в меню "Taxonomy (OC)" и внесите в окошко родовое название организма, затем найдите в списке нужный штамм (если вдруг вашего штамма нет, берите любой штамм того же вида, но отметьте это в отчёте). Найдя нужный протеом, щёлкните по числу белков (последний столбец), затем кнопка "Download" → FASTA → сохраните файл и перенесите его в свою рабочую директорию на kodomo. Если файл запакован (имя кончается на gz) распакуйте его программой gunzip. Рекомендуется переименовать файл так, чтобы название было кратким и указывало на название организма, но расширение "fasta" обязательно оставить.
Программой wordcount посчитайте частоты букв в протеомах. Указания: внимательно читайте wordcount -help. Опции, заключённые в квадратные скобки, можно не задавать в командной строке, тогда программа спросит о них (но имя входного файла всё же удобнее задать в командной строке, чтобы иметь возможность пользоваться клавишей Tab). Буква — это слово длины 1.
- Импортируйте обе выдачи wordcount в Excel, посчитайте общее число букв и процент каждой буквы в каждом протеоме. Создайте единую таблицу процентов букв в обоих организмах, упорядоченную по убыванию процента в вашем организме. Посчитайте разность процентов для каждой буквы. (Замечание: не возбраняется проделать эту работу средствами Python, в этом случае приложите к отчёту ссылку на скрипт и командную строку вызова скрипта).
В отчёт включите: идентификаторы протеомов, число последовательностей и число остатков в каждом из них, а также html-таблицу из четырёх колонок: 1) остаток (однобуквенный код); 2) процент данного остатка в протеоме вашего организма; 3) процент в протеоме E. coli K12; 4) разность процентов. Таблица должна иметь заголовки столбцов. В комментарии к таблице напишите основные различия: одинаковые ли остатки входят в три самых частых и в три самых редких, для какого остатка разница самая большая по абсолютной величине. Указание: html-таблицу удобно генерировать средствами Excel, используя функцию CONCATENATE (СЦЕПИТЬ).
(* — дополнительно). Изучите программу compseq. Напишите небольшую "справку для пользователя" о разнице между программами wordcount и compseq. Какую программу вы бы сами выбрали для выполнения задания и почему?
Упражнения по EMBOSS
- Программой infoseq: а) выведите всю информацию о последовательностях одного fasta-файла (например, одного из протеомов, скачанных ранее); б) выведите только колонки "имя", "код доступа (AC)", "длина" и "описание"; в) перенаправьте выдачу в программу less; г) запишите выдачу в файл; д) запишите в файл только те строки, в которых есть выражение "PE=1"; е) посчитайте число строк с PE=1 без записи в файл.
Запишите в файл help какой-нибудь программы EMBOSS (т.е., то. что выдаёт программа, будучи запущена с опцией -help).
- Извлеките из присоединённого банка Swiss-Prot полные записи (т.е., в формате Uniprot) всех белков, чей ID начинается на "HXA" и кончается "HUMAN". С помощью grep посмотрите содержимое полей ID, DE, FT этих белков.
- Создайте файл с последовательностью ДНК-связываюшего домена белка Hox-A1 человека в fasta-формате.
- С помощью одной командной строки (конвейера seqret и descseq) создайте файл с последовательностью того же домена, но с описанием, изменённым на "Homeobox Hox-A1".
С помощью конвейера entret → grep → less просмотрите особенности (поле FT) белка с ID "POLG_FMDVA" банка Swiss-Prot.
Слово, идущее после букв FT, перед координатами особенности, называется "ключ" (Feature Key). Создайте конвейер, который записывает в файл информацию об особенностях с ключом CHAIN этого белка.
Указания
Читайте help и пробуйте разные варианты, пока не получится в точности то, что нужно.
- Программы EMBOSS выдают свой help на stderr.
Программа entret служит для получения полных записей из банков, программа seqret — для полученния последовательностей в заданных форматах (по умолчанию fasta). В качестве адреса последовательности (USA) годится выражение вида "банк:ID" или "банк:AC". На kodomo банк Swiss-Prot имеет обозначение sw (например, sw:p0a7c2 — это корректный адрес). Вместо неизвестных букв в ID или AC можно ставить звёздочку "*". Если звёздочки задают больше одной последовательности, то seqret или entret положит их все в один файл. Внимание: имя банка (или файла) и название последовательности в адресе разделяет двоеточие, не точка с запятой!
- Чтобы вырезать кусок последовательности (например, с началом в 202 остатке и концом в 504), можно поступить одним из трёх способов:
включить координаты прямо в USA, например sw:polg_fmdva[202:504]
добавить в командную строку параметры -sbeg и -send, например seqret sw:polg_fmdva -sbeg 202 -send 504
добавить в командную строку seqret опцию -sask, тогда программа сама спросит про начало и конец.
- Практически все программы EMBOSS, в том числе seqret, выдают результат на стандартный вывод вместо файла, если в качестве имени выыходного файла указать "stdout".
Программы EMBOSS, будучи запущены с опцией -filter, принимают в качестве входа стандартный вход и выдают результат на стандартный вывод. Это удобно для конвейеров, например для переименования участков последовательностей, вырезанных seqret'ом из полных последовательностей, программой descseq. Подробнее про EMBOSS читайте на сайте http://emboss.sourceforge.net/docs/ .
- При использовании в grep выражений, содержащих пробелы (и вообще что-либо, кроме букв и цифр), не забывайте про кавычки! Чтобы выделить FT с данным ключом, полезно посчитать число пробелов между буквами FT и ключевым словом и всё это выражение в кавычках скормить grep'у.