Занятие 10 (зачётное)

Дано: неаннотированный фрагмент генома бактерии Yersinia mollaretii

Задача: определить, закодированы ли данном фрагменте какие-либо белки, похожие на известные белки родственной бактерии (кишечной палочки).

Создайте директорию H:\Term3\Credit2, к концу занятия положите в нее файлы с результатами работы (и только их!). Задание распадается на две части: пункты 1–3 вы делаете "на время" и файлы с результатами должны появиться в директории Credit2 к концу занятия. Оставшаяся часть должна быть готова и оформлена на сайте к следующему занятию.

Задание

Получите заданный Вам фрагмент генома Yersinia mollaretii длины 7000 нуклеотидов (с помощью программы seqret). Определите, есть ли в этом фрагменте гены, кодирующие белки, похожие на известные белки бактерии Escherichia coli K-12 .

  1. Определите инструмент(ы) для решения поставленной задачи. Полный протеом E. coli получите из Swiss-Prot, см. подсказки. Создайте индексные файлы для поиска программами пакета BLAST (предварительно проверьте свою квоту и удалите, если надо, ненужные файлы).
  2. Извлеките из вашего фрагмента трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов. Воспользуйтесь программой getorf из пакета EMBOSS. При этом используйте стандартный для бактерий (bacterial) генетический код, открытой рамкой считайте последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном.
  3. Создайте книгу Excel, включающую информацию обо всех открытых рамках считывания в вашем фрагменте генома. Для каждой рамки должно быть указано: начало во фрагменте, конец во фрагменте, направление (прямое или обратное), число сходных последовательностей, найденных у E. coli при условии E-value<0,001.
  4. В отчете приведите таблицу, содержащую эту информацию только для тех открытых рамок, для которых нашлась хотя бы одна сходная последовательность, кроме того, в отчётной таблице должны присутствовать два дополнительных столбца, в которых приведены: идентификатор самого близкого из найденных белков E. coli и E-value находки.
  5. Изобразите схематически положение на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в E. coli.
  6. Сравните взаимное расположение предполагаемых генов данного фрагмента и гомологичных им генов в геноме кишечной палочки.
  7. * Если в полученном наборе предполагаемых генов имеются аномалии (перекрывания генов), постарайтесь их объяснить. Предложите наиболее правдоподобную, по вашему мнению, структуру генов на данном участке генома.
См. указания.

Файл с последовательностями трансляций открытых рамок, скрипт, посредством которого вы получили результат пункта 3, и книга Excel должны лежать в директории Credit2 к концу занятия. Но вы будете молодцы, если успеете хотя бы частично оформить отчёт!

Полный вариант отчета (срок оформления — неделя) предполагает:

В окончательной версии отчета допускаются любые разумные исправления и уточнения описания кодирующих областей. Приветствуются любые нетривиальные наблюдения и любые дополнения.