Учебный сайт Ксении Березиной

Предсказание генов у прокариот

Использование ORF Finder

Дан контиг микробиома кардиального отдела желудка валлаби. Для начала с помощью ORF Finder найдем открытые рамки считывания длиной не менее 180 нуклеотидов. Открытая рамка считывания (Open Reading Frame)— потенциально способная кодировать белок последовательность, которая определяется в основном по старт- и/или стоп-кодону и имеет достаточную длину.

Нашлось несколько ORF (рис.1).
Рис.1. ORFs контига микробиома валлаби. Рамкой выделены ORF длиной более 60 а.о.

Для каждой из этих нуклеотидных последовательностей с помощью BLASTP найдем предпологаемо гомологичные последовательности белков. Использованные параметры: E-value < 0.001, Query cover > 80%, база - SwissProt. В таблице 1 показаны хорощие находки.

Таблица 1. Результат алгоритма blastp для нескольких ORF

НачалоКонецДлина в а.о.ЦепьОписание белка
1559153-Отвечает за регуляцию транскрипции
16402878413-MacB пермеаза; связывание АТФ

Оказалось, что в рамке 1..559 два консервативных домена (рис.2), которые встречаются в белках-регуляторах транскрипции (некоторые находки). На первом месте по E-value белок бактерии, вызывающей брюшной тиф, Salmonella typhi. Для рамки 1640..2878 тоже нашлось много белков одинаковой фунции у разных прокариот: оказалось, что в ней есть два домена (рис.3). Видимо, это очень консервативный белок, он найден во множестве прокариот, причем во всех blastp выдает identity около 100%. Среди них есть и Salmonella typhi. Можно сказать, что есть вероятность, что это контиг из генома бактерии Salmonella typhi.

Рис.2. ORF 1..559
Рис.3. ORF 1640..2878

Использование GeneMark

Программа GeneMark тоже вычисляет участки, способные кодировать белок. Она использует эвристические алгоритмы. Получены графики (рис.4), на которых показаны черными толстыми прямыми следующие результаты:

	
		Predicted genes
   Gene    Strand    LeftEnd    RightEnd       Gene     
    #                                         Length
    1        -          <3         599          597        
    2        -         589        1647         1059        
    3        -        1640        2878         1239        
		
Рис.4. График расшифровки контига. На оси абсцисс обозначены координаты нуклеотидов, на оси ординат -- кодирующий потенциал.

Вывод

Итак, кодирующий участок #1, выданный GeneMark, полностью совпадает с участком, выведенным сочетанием ORF Finder и blastp, за исключением начала гена (<3). Можно сказать, что GeneMark был более точным, поставив начало гена с третьего нуклеотида (рис. 4, зеленый круг). Третий предсказанный ген полностью совпал при использовании обоих способов. А вот участок #2 (589..1647) был опознан как ген программой GeneMark и только ORF Finder (рис.1). При поиске гомологов среди белков все находки показались мне не слишком достоверными: выравнивания открытой рамки с найденными белками не проходили по критерию Query cover >80%. Для каждой находки только 30-40% последовательности рамки было покрыто выравниванием. Можно сказать, что GeneMark хорошо справляется с нахождением генов. Однако я думаю, что более точный результат выходит при поиске белков, которые может кодировать этот ген, то есть использование blastp.

Назад к третьему семестру