Учебная страница курса биоинформатики,
год поступления 2011
Самостоятельная работа
Дано: неаннотированный участок генома бактерии Ornithinibacillus scapharcae (штамм TW25).
Задача: определить, где в данном фрагменте закодированы белки, похожие на известные белки родственной бактерии (сенной палочки).
Создайте директорию H:\Term3\Credit2, к концу занятия в ней должны оказаться файлы с результатами работы.
Задание распадается на две части: пункты 1–3 вы делаете "на время" и файлы с результатами должны появиться в директории Credit2 к концу занятия. Оставшаяся часть должна быть готова и оформлена на сайте к следующему занятию.
Задание
Получите фрагмент генома O.scapharcae из записи AEWH01000006 банка EMBL с заданным началом, длиной 7000 нуклеотидов. Определите, где в этом фрагменте закодированы белки, похожие на известные белки бактерии Bacillus subtilis.
1. Определите инструмент(ы) для решения поставленной задачи. Полный протеом B. subtilis получите из Swiss-Prot, см. подсказки. Создайте индексные файлы для поиска программами пакета BLAST (предварительно проверьте свою квоту и удалите, если надо, ненужные файлы).
2. Извлеките из вашего фрагмента генома трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов. Воспользуйтесь программой getorf из пакета EMBOSS. При этом используйте стандартный для бактерий (bacterial) генетический код, открытой рамкой считайте последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном.
3. Создайте книгу Excel, включающую информацию обо всех открытых рамках считывания в вашем фрагменте генома. Для каждой рамки должно быть указано: начало во фрагменте, конец во фрагменте, направление (прямое или обратное), число сходных последовательностей, найденных программой BLAST в протеоме B. subtilis при условии E-value<0,001.
В рабочей директории к 14:30 должны находиться:
- Файл с вашим фрагментом генома.
- Файл с результатами getorf.
- Файл с результатами BLAST.
- Файл Excel.
- Скрипт, которым вы добыли из выдачи BLAST число гомологов для каждой рамки. Если вы сумели обойтись без скрипта, одной командой, вставьте команду в Excel-файл как примечание.
Файл с последовательностями B.subtilis лучше стереть, чтобы зря не занимать диск.
Отчёт (пункты 4–7) оформляется на сайте к следующему занятию
4. В отчете приведите таблицу, содержащую информацию о тех открытых рамках, для которых нашлась хотя бы одна сходная последовательность. Кроме того, в отчётной таблице должны присутствовать два дополнительных столбца, в которых приведены: идентификатор самого близкого из найденных белков B. subtilis и E-value находки.
5. Изобразите схематически положение на фрагменте тех открытых рамок, для которых нашлись сходные последовательности в B. subtilis.
6. Сравните взаимное расположение предполагаемых генов данного фрагмента и гомологичных им генов в геноме сенной палочки.
7. (*) Если в полученном наборе предполагаемых генов имеются аномалии (перекрывания генов), постарайтесь их объяснить. Предложите наиболее правдоподобную, по вашему мнению, структуру генов на данном участке генома.
См. указания.
Отчёт предполагает:
- связный текст (как всегда, отчёт должен быть понятен без обращения к тексту задания);
- обоснование выбора использованных программ и параметров и краткое описание последовательности действий, а также промежуточных результатов (например, сколько всего открытых рамок нашлось);
таблицу предполагаемых генов (т.е., открытых рамок, для которых нашелся сходный белок в B. subtilis, см. п.4);
- графическое описание взаимного расположения предполагаемых генов в заданном фрагменте. Это должно выглядеть примерно так:
Гипотетические гены во фрагменте 10001–17000 записи AEWH01000006
3'--------------------------------[<= bbbb, 2000-3000]-------------------5' 5'---[=> aaaa, 8-1000]---------------------------------------------------3'
где значки => и <= обозначают прямую и комплементарную цепь ДНК соответственно, а парами квадратных скобок обозначены открытые рамки, в которых приведено краткое название самого сходного белка B. subtilis (например, "yfia", если ближайший гомолог имеет ID "YFIA_BACSU") и координаты границ открытой рамки во фрагменте (не во всей записи EMBL, а в данном вам фрагменте!).
наконец, сравнение взаимного расположения предсказанных генов в исследуемом фрагменте и сходных аннотированных генов в геноме B. subtilis. (Замечание: достаточно рассмотреть для каждого предсказанного гена только один, наиболее сходный из белков B. subtilis). Прежде всего надо указать, насколько близко друг к другу расположены соответствующие гены в геноме B. subtilis. Если все они или часть их расположены близко друг к другу, то следует описать их взаимное расположение в сравнении с расположением предсказанных генов O.scapharcae. Необходим вывод о консервативности или неконсервативности расположения тех или иных пар или групп генов на основе сравнения двух геномов.
В окончательной версии отчета допускаются любые разумные исправления и уточнения описания кодирующих областей. Приветствуются любые нетривиальные наблюдения и любые дополнения.