Занятие 5 (зачетное)
Что кодирует фрагмент нуклеотидной последовательности?

Дано: фрагмент неаннотированного генома бактерии Klebsiella pneumoniae с границами 3986583..3993583. Дан также протеом и геном бактерии-прототипа (E.coli).

Задача: определить, кодирует ли заданный фрагмент что-либо, похожее на какой-либо белок из прототипного организма.

Отчет по работе (вариант 2)

Извлекаем заданный фрагмент генома Klebsiella pneumoniae из файла kpn_genome.fasta с помощью программы seqret командой
seqret kpn_genome.entret -sask 3986583..3993583.
Определим, есть ли в этом фрагменте гены, похожие на гены бактерии-прототипа Escherichia coli K-12 .

При помощи программы getorf из пакета EMBOSS извлечем из фрагмента трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов (параметр -minsize 240). При этом используем стандартный для бактерий (bacterial) генетический код (-table 11), открытой рамкой считаем последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном (-find 1).
getorf -minsize 240 -table 11 -find 1
Схожие гены будем искать в геноме (нуклеотидная БД), пробная последовательность является трансляцией => придется использовать программу TBlastN пакета blastall. Создадим индексные файлы для поиска:
formatdb -i ecoli.fasta -p F -n ec

В книге Excel result.xls на странице otrezki содержится информация обо всех открытых рамках считывания в фрагменте генома (начало во фрагменте, конец во фрагменте, направление, число сходных последовательностей, найденных у E. coli при условии E-value<0,001). Информация получена следующим образом:

grep -n 'KPN2' kpn_otrezki.orf > otrezki.txt (выписываем только первую строчку для каждой открытой рамки считывания)
вставляем это все в Excel
число находок ищем скриптом script.script

Структура участка

Теперь рассмотрим результат поиска сходных генов для каждой из рамок (для этого можно написать новый скрипт). Среди находок выберем лучшие и поставим их в соответствие с рамками, а остальные рамки можно не рассматривать (часть рамок - нуклеотидные последовательности, комплементарные "хорошим" рамкам, некоторые рамки находятся внутри других и сдвинуты). Оказалось, что данный участок очень похож на участок генома E.coli: определенные рамки очень похожи (E-value от 0 до e-50) на гены из E.coli, расположены в той же последовательности и ориентированы так же. Дадим рамкам названия соответствующих генов из E.coli.

Гены из K.pneumoniae	Положение на фрагменте	Гены из E.coli	Положение	E-value находки
...	...	hycI...hycF	...	...
hycE	complement(3..854)	hycE	complement(2842784..2844493)	E-164
hycD	complement(868..1794)	hycD	complement(2844511..2845434)	E-156
hycC	complement(1794..3617)	hycC	complement(2845437..2847263)	0,0
hycB	complement(3617..4222)	hycB	complement(2847260..2847871)	E-103
hycA	complement(4308..4793)	hycA	complement(2847996..2848457)	6,00E-62
hypA	4964..5305	hypA	2848669..2849019	1,00E-49
hypB	5309..6181	hypB	2849023..2849895	1,00E-152
hypC	6148..6444	hypC	2849886..2850158	3,00E-45
hypD	6444..7001	hypD	2850158..2851279	1,00E-92
...	...	hypE	...	...

Описание взаимного расположения предполагаемых генов (т.е., открытых рамок, для которых нашелся сходный участок генома/протеома E. coli) в заданном фрагменте:

Гипотетические гены во фрагменте 3986583..3993583


3'-[<=ген hycE, 3-854]-[<=ген hycD, 868-1794]-[<=ген hycC, 1794-3617]-[<=ген hycB, 3617-4222]-[<=ген hycA, 4308-4793]-------------------------------------------------------------------------------------------------5'

5'---------------------------------------------------------------------------------------------------------------------[=>ген hypA, 4964-5305]-[=>ген hypB, 5309-6181]-[=>ген hypC, 6148-6444]-[=>ген hypD, 6444-7001]-3'

Значки => и <= обозначают прямую или комплементарную цепь ДНК соответственно, "hycX" или "hypX" — название сходного гена у E. coli, а 3–854 — это границы открытой рамки, если отсчитывать от начала участка.

Сравнение взаимного расположения предсказанных генов в исследуемом фрагменте и сходных аннотированных генов:
Оперон hyc в E.coli кодирует гидрогеназу 3 (различные ее субъединицы), противонаправленный оперон hyp влияет на ее "созревание" (продукты генов hyp внедряют Ni в гидрогеназу). Можно предположить, что в K.pneumoniae на данный фрагмент попали те же два оперона. В обоих организмах слека перекрываются гены hypB и hypC (возможно, это свойственно для данного оперона и приводит к уменьшению его длины). В E.coli слегка перекрываются гены hycB и hycC, в K.pneumoniae они граничат впритык. Кроме того, в K.pneumoniae на фрагменте крайние гены (hycE и hypD) "обрезаны", т.е. на мой фрагмент попали только их части, а остальное - в других фрагментах.
Группа гипотетических генов hyc из K.pneumoniae также имеет сходство с субъединицами гидрогеназы 4 и NADH-убихинонредуктазы (сходны соответствующие мембранные и Fe-S субъединицы), но в расположении генов, кодирующих субъединицы, уже нет такого замечательного совпадения. Гены hypA и hypC сходны с генами hybF и hybG, необходимыми для "созревания" гидрогеназы 2.
Я выбрал нуклеотидную БД для поиска сходных генов, т.к. в ней содержится больше информации, чем в SwissProt'е, куда попадают только белки, для которых точно установлен факт существования и функция. Кроме того, нам все равно придется обращаться к геному, чтобы узнать расположение найденных схожих генов в E.coli. E. coli.

Занятие 5 (зачетное) Что кодирует фрагмент нуклеотидной последовательности?

Отчет по работе (вариант 2)

Структура участка

Занятие 5 (зачетное)
Что кодирует фрагмент нуклеотидной последовательности?