На главную страницу третьего семестра

Занятие 5 (зачетное)
Что кодирует фрагмент нуклеотидной последовательности?

Дано: фрагмент неаннотированного генома бактерии Klebsiella pneumoniae с границами 3986583..3993583. Дан также протеом и геном бактерии-прототипа (E.coli).

Задача: определить, кодирует ли заданный фрагмент что-либо, похожее на какой-либо белок из прототипного организма.

Отчет по работе (вариант 2)

Извлекаем заданный фрагмент генома Klebsiella pneumoniae из файла kpn_genome.fasta с помощью программы seqret командой
  seqret kpn_genome.entret -sask 3986583..3993583.
Определим, есть ли в этом фрагменте гены, похожие на гены бактерии-прототипа Escherichia coli K-12 .

  1. При помощи программы getorf из пакета EMBOSS извлечем из фрагмента трансляции всех открытых рамок считывания длиной не менее 240 нуклеотидов (параметр -minsize 240). При этом используем стандартный для бактерий (bacterial) генетический код (-table 11), открытой рамкой считаем последовательность, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном (-find 1).
      getorf -minsize 240 -table 11 -find 1
  2. Схожие гены будем искать в геноме (нуклеотидная БД), пробная последовательность является трансляцией => придется использовать программу TBlastN пакета blastall. Создадим индексные файлы для поиска:
      formatdb -i ecoli.fasta -p F -n ec
  3. В книге Excel result.xls на странице otrezki содержится информация обо всех открытых рамках считывания в фрагменте генома (начало во фрагменте, конец во фрагменте, направление, число сходных последовательностей, найденных у E. coli при условии E-value<0,001). Информация получена следующим образом:

    Структура участка

    Теперь рассмотрим результат поиска сходных генов для каждой из рамок (для этого можно написать новый скрипт). Среди находок выберем лучшие и поставим их в соответствие с рамками, а остальные рамки можно не рассматривать (часть рамок - нуклеотидные последовательности, комплементарные "хорошим" рамкам, некоторые рамки находятся внутри других и сдвинуты). Оказалось, что данный участок очень похож на участок генома E.coli: определенные рамки очень похожи (E-value от 0 до e-50) на гены из E.coli, расположены в той же последовательности и ориентированы так же. Дадим рамкам названия соответствующих генов из E.coli.

    Гены из
    K.pneumoniae
    Положение на фрагментеГены из E.coliПоложениеE-value находки
    ......hycI...hycF......
    hycEcomplement(3..854)hycEcomplement(2842784..2844493)E-164
    hycDcomplement(868..1794)hycDcomplement(2844511..2845434)E-156
    hycCcomplement(1794..3617)hycCcomplement(2845437..2847263)0,0
    hycBcomplement(3617..4222)hycBcomplement(2847260..2847871)E-103
    hycAcomplement(4308..4793)hycAcomplement(2847996..2848457)6,00E-62
    hypA4964..5305hypA2848669..28490191,00E-49
    hypB5309..6181hypB2849023..28498951,00E-152
    hypC6148..6444hypC2849886..28501583,00E-45
    hypD6444..7001hypD2850158..28512791,00E-92
    ......hypE......


    Описание взаимного расположения предполагаемых генов (т.е., открытых рамок, для которых нашелся сходный участок генома/протеома E. coli) в заданном фрагменте:

    Гипотетические гены во фрагменте 3986583..3993583

    
    3'-[<=ген hycE, 3-854]-[<=ген hycD, 868-1794]-[<=ген hycC, 1794-3617]-[<=ген hycB, 3617-4222]-[<=ген hycA, 4308-4793]-------------------------------------------------------------------------------------------------5'
    
    5'---------------------------------------------------------------------------------------------------------------------[=>ген hypA, 4964-5305]-[=>ген hypB, 5309-6181]-[=>ген hypC, 6148-6444]-[=>ген hypD, 6444-7001]-3' 

    Значки => и <= обозначают прямую или комплементарную цепь ДНК соответственно, "hycX" или "hypX" — название сходного гена у E. coli, а 3–854 — это границы открытой рамки, если отсчитывать от начала участка.

    Сравнение взаимного расположения предсказанных генов в исследуемом фрагменте и сходных аннотированных генов:
    Оперон hyc в E.coli кодирует гидрогеназу 3 (различные ее субъединицы), противонаправленный оперон hyp влияет на ее "созревание" (продукты генов hyp внедряют Ni в гидрогеназу). Можно предположить, что в K.pneumoniae на данный фрагмент попали те же два оперона. В обоих организмах слека перекрываются гены hypB и hypC (возможно, это свойственно для данного оперона и приводит к уменьшению его длины). В E.coli слегка перекрываются гены hycB и hycC, в K.pneumoniae они граничат впритык. Кроме того, в K.pneumoniae на фрагменте крайние гены (hycE и hypD) "обрезаны", т.е. на мой фрагмент попали только их части, а остальное - в других фрагментах.
    Группа гипотетических генов hyc из K.pneumoniae также имеет сходство с субъединицами гидрогеназы 4 и NADH-убихинонредуктазы (сходны соответствующие мембранные и Fe-S субъединицы), но в расположении генов, кодирующих субъединицы, уже нет такого замечательного совпадения. Гены hypA и hypC сходны с генами hybF и hybG, необходимыми для "созревания" гидрогеназы 2.
      Я выбрал нуклеотидную БД для поиска сходных генов, т.к. в ней содержится больше информации, чем в SwissProt'е, куда попадают только белки, для которых точно установлен факт существования и функция. Кроме того, нам все равно придется обращаться к геному, чтобы узнать расположение найденных схожих генов в E.coli. E. coli.


    ©Хайруллин Альберт