Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2015

Практикум 8: протеомы и EMBOSS

Формат отчёта по первому заданию: html-страница со ссылкой с заглавной страницы семестра.

Остальные задания тренировочные: их нужно проделать, чтобы на коллоквиуме 19 апреля быстро выполнить аналогичное задание.

Задание 1. Частоты остатков в протеомах

  1. Скачайте из Uniprot два полных протеома: 1) Escherichia coli (штамма K12) и 2) своей бактерии или археи (столбец G таблицы), в fasta-формате. Указания: с заглавной страницы Uniprot идёте по гиперссылке Proteomes. Протеом E. coli K12 будет. скорее всего, на первой странице списка. Чтобы найти другой протеом, перейдите на Advanced, выберите в меню "Taxonomy (OC)" и внесите в окошко родовое название организма, затем найдите в списке нужный штамм (если вдруг вашего штамма нет, берите любой штамм того же вида, но отметьте это в отчёте). Найдя нужный протеом, щёлкните по числу белков (последний столбец), затем кнопка "Download" → FASTA → сохраните файл и перенесите его в свою рабочую директорию на kodomo. Если файл запакован (имя кончается на gz) распакуйте его программой gunzip. Рекомендуется переименовать файл так, чтобы название было кратким и указывало на название организма, но расширение "fasta" обязательно оставить.

  2. Программой wordcount посчитайте частоты букв в протеомах. Указания: внимательно читайте wordcount -help. Опции, заключённые в квадратные скобки, можно не задавать в командной строке, тогда программа спросит о них (но имя входного файла всё же удобнее задать в командной строке, чтобы иметь возможность пользоваться клавишей Tab). Буква — это слово длины 1.

  3. Импортируйте обе выдачи wordcount в Excel, посчитайте общее число букв и процент каждой буквы в каждом протеоме. Создайте единую таблицу процентов букв в обоих организмах, упорядоченную по убыванию процента в вашем организме. Посчитайте разность процентов для каждой буквы. (Замечание: не возбраняется проделать эту работу средствами Python, в этом случае приложите к отчёту ссылку на скрипт и командную строку вызова скрипта).
  4. В отчёт включите: идентификаторы протеомов, число последовательностей и число остатков в каждом из них, а также html-таблицу из четырёх колонок: 1) остаток (однобуквенный код); 2) процент данного остатка в протеоме вашего организма; 3) процент в протеоме E. coli K12; 4) разность процентов. Таблица должна иметь заголовки столбцов. В комментарии к таблице напишите основные различия: одинаковые ли остатки входят в три самых частых и в три самых редких, для какого остатка разница самая большая по абсолютной величине. Указание: html-таблицу удобно генерировать средствами Excel, используя функцию CONCATENATE (СЦЕПИТЬ).

  5. (* — дополнительно). Изучите программу compseq. Напишите небольшую "справку для пользователя" о разнице между программами wordcount и compseq. Какую программу вы бы сами выбрали для выполнения задания и почему?

Упражнения по EMBOSS

  1. Программой infoseq: а) выведите всю информацию о последовательностях одного fasta-файла (например, одного из протеомов, скачанных ранее); б) выведите только колонки "имя", "код доступа (AC)", "длина" и "описание"; в) перенаправьте выдачу в программу less; г) запишите выдачу в файл; д) запишите в файл только те строки, в которых есть выражение "PE=1"; е) посчитайте число строк с PE=1 без записи в файл.
  2. Запишите в файл help какой-нибудь программы EMBOSS (т.е., то. что выдаёт программа, будучи запущена с опцией -help).

  3. Извлеките из присоединённого банка Swiss-Prot полные записи (т.е., в формате Uniprot) всех белков, чей ID начинается на "HXA" и кончается "HUMAN". С помощью grep посмотрите содержимое полей ID, DE, FT этих белков.
  4. Создайте файл с последовательностью ДНК-связываюшего домена белка Hox-A1 человека в fasta-формате.
  5. С помощью одной командной строки (конвейера seqret и descseq) создайте файл с последовательностью того же домена, но с описанием, изменённым на "Homeobox Hox-A1".
  6. С помощью конвейера entret → grep → less просмотрите особенности (поле FT) белка с ID "POLG_FMDVA" банка Swiss-Prot.

Слово, идущее после букв FT, перед координатами особенности, называется "ключ" (Feature Key). Создайте конвейер, который записывает в файл информацию об особенностях с ключом CHAIN этого белка.

Указания

  1. Читайте help и пробуйте разные варианты, пока не получится в точности то, что нужно.

  2. Программы EMBOSS выдают свой help на stderr.
  3. Программа entret служит для получения полных записей из банков, программа seqret — для полученния последовательностей в заданных форматах (по умолчанию fasta). В качестве адреса последовательности (USA) годится выражение вида "банк:ID" или "банк:AC". На kodomo банк Swiss-Prot имеет обозначение sw (например, sw:p0a7c2 — это корректный адрес). Вместо неизвестных букв в ID или AC можно ставить звёздочку "*". Если звёздочки задают больше одной последовательности, то seqret или entret положит их все в один файл. Внимание: имя банка (или файла) и название последовательности в адресе разделяет двоеточие, не точка с запятой!

  4. Чтобы вырезать кусок последовательности (например, с началом в 202 остатке и концом в 504), можно поступить одним из трёх способов:
    • включить координаты прямо в USA, например sw:polg_fmdva[202:504]

    • добавить в командную строку параметры -sbeg и -send, например seqret sw:polg_fmdva -sbeg 202 -send 504

    • добавить в командную строку seqret опцию -sask, тогда программа сама спросит про начало и конец.

  5. Практически все программы EMBOSS, в том числе seqret, выдают результат на стандартный вывод вместо файла, если в качестве имени выыходного файла указать "stdout".
  6. Программы EMBOSS, будучи запущены с опцией -filter, принимают в качестве входа стандартный вход и выдают результат на стандартный вывод. Это удобно для конвейеров, например для переименования участков последовательностей, вырезанных seqret'ом из полных последовательностей, программой descseq. Подробнее про EMBOSS читайте на сайте http://emboss.sourceforge.net/docs/ .

  7. При использовании в grep выражений, содержащих пробелы (и вообще что-либо, кроме букв и цифр), не забывайте про кавычки! Чтобы выделить FT с данным ключом, полезно посчитать число пробелов между буквами FT и ключевым словом и всё это выражение в кавычках скормить grep'у.