Занятие 10 (зачётное)
Дано: неаннотированный фрагмент генома бактерии Paenibacillus larvae
Задача:
определить, где в данном фрагменте закодированы белки,
похожие на известные белки родственной бактерии (сенной палочки Bacillus subtilis).
Данные :
Контиг (секвенированный непрерывный участок генома) и фрагмент в нем
Fasta файл со всеми нужными контигами
Протеом B.subtilis на сайте EBI
или он же, скачанный нами
Результаты должны оказаться в директорию H:\Term3\Block2\Credit,
имена всех файлов для проверки должны начинаться с вашей фамилии, написанной латинскими буквами.
К концу занятия должны быть получены файлы:
- Fasta файл с трансляциями достаточно длинных - более 200 нуклеотидов - открытых рамок считывания (XXXXXXX_orf_transl.fasta)
- Excel файл с табличной информацией о находках BLAST в полном протеоме B.subtilis (XXXXXXX_blast_hits.xls)
- Файл с кратким планом работы (XXXXXXX_credit.doc) Всюду XXXXXXX - фамилия латинскими буквами.
К следующему занятию должен быть готов оформленный отчёт в файле XXXXXXX.doc
Задание распадается на две части: пункты 1–4
вы делаете "на время" и файлы с результатами
должны появиться в директории Credit2 к концу занятия. Оставшаяся часть должна
быть готова и оформлена на сайте к следующему занятию.
Задание по этапам
- Напишите короткий план работы в файле XXXXXXX_credit.doc: что, в каком порядке и какими
программами воспользуетесь для решения поставленной задачи.
- Создайте индексные файлы
для поиска программами пакета BLAST (предварительно проверьте свою
квоту и удалите, если надо, ненужные файлы).
- Создайте файл с трансляциями всех открытых рамок считывания
длиной не менее 200 нуклеотидов из вашего фрагмента. Используйте программы пакета EMBOSS.
- Создайте Excel файл с находками BLAST. Используйте табличную выдачу. Не забудьте включить
названия всех столбцов. (Страница blast_hits)
- Создайте страницу orfs в файле Excel, включающую информацию обо всех открытых рамках
считывания (>200 п.н.) в вашем фрагменте генома. Для каждой рамки должно быть
указано: начало во фрагменте, конец во фрагменте, направление (прямое
или обратное), число сходных последовательностей, найденных программой BLAST
в протеоме B. subtilis при условии E-value<0,001. начало CDS, конец CDS предполагаемого белка.
- В отчете XXXXXXX_credt.doc приведите таблицу, содержащую эту информацию
только для тех открытых рамок,
для которых нашлась хотя бы одна сходная последовательность.
Вместо границ открытой рамки приведите предполагаемые границы кодирующей
последовательности (начало CDS может не совпадать с началом открытой рамки).
Кроме того, в отчётной таблице должны присутствовать два дополнительных
столбца, в которых приведены: идентификатор самого близкого
из найденных белков B. subtilis, E-value находки, предполагаемая
функция белка Paenibacillus larvae
- Изобразите схематически положение на фрагменте тех открытых рамок,
для которых нашлись сходные последовательности в B. subtilis.
- * Если в полученном наборе предполагаемых генов имеются аномалии
(перекрывания генов), постарайтесь их объяснить. Предложите наиболее
правдоподобную, по вашему мнению, структуру генов на данном участке генома.
- * Приведите выравнивания трансляций открытых рамок считывания и сходных
последовательностей из протеома сенной палочки.
Можно получить подсказки и указания. Те студенты, которые ими не воспользуются,
получают премиальный балл - если, конечно, справятся с заданием :)
Полный вариант отчета (срок оформления — неделя) предполагает:
- связный текст (как всегда, отчёт должен быть понятен без обращения
к тексту задания);
- обоснование выбора использованных программ и параметров
и краткое описание последовательности действий,
а также промежуточных результатов (например, сколько всего открытых рамок нашлось);
- таблицу предполагаемых генов (т.е., открытых рамок, для которых нашелся
сходный участок протеома B. subtilis, см. п.6);
- графическое описание взаимного расположения предполагаемых
генов в заданном фрагменте. Это должно выглядеть так:
Гипотетические гены во фрагменте 1–10000 записи AX0000000
3'-------------------------------------[<= bbbb, 2000-3000]-------5'
5'----[=> aaaa, 1-1000]-------------------------------------------3'
где значки => и
<=
обозначают прямую или комплементарную цепь ДНК соответственно,
"aaaa" — краткое название самого сходного белка E. coli,
а 1–1000 — это координаты границ открытой рамки во фрагменте
(не во всей записи EMBL, а в данном вам фрагменте!).
В окончательной версии отчета допускаются любые разумные исправления и
уточнения описания кодирующих областей. Приветствуются любые нетривиальные
наблюдения и любые дополнения.