Предсказание генов у прокариот
Использование ORF Finder
Дан контиг микробиома кардиального отдела желудка валлаби. Для начала с помощью ORF Finder найдем открытые рамки считывания длиной не менее 180 нуклеотидов. Открытая рамка считывания (Open Reading Frame)— потенциально способная кодировать белок последовательность, которая определяется в основном по старт- и/или стоп-кодону и имеет достаточную длину.
Нашлось несколько ORF (рис.1).Для каждой из этих нуклеотидных последовательностей с помощью BLASTP найдем предпологаемо гомологичные последовательности белков. Использованные параметры: E-value < 0.001, Query cover > 80%, база - SwissProt. В таблице 1 показаны хорощие находки.
Таблица 1. Результат алгоритма blastp для нескольких ORF
Начало | Конец | Длина в а.о. | Цепь | Описание белка |
---|---|---|---|---|
1 | 559 | 153 | - | Отвечает за регуляцию транскрипции |
1640 | 2878 | 413 | - | MacB пермеаза; связывание АТФ |
Оказалось, что в рамке 1..559 два консервативных домена (рис.2), которые встречаются в белках-регуляторах транскрипции (некоторые находки). На первом месте по E-value белок бактерии, вызывающей брюшной тиф, Salmonella typhi. Для рамки 1640..2878 тоже нашлось много белков одинаковой фунции у разных прокариот: оказалось, что в ней есть два домена (рис.3). Видимо, это очень консервативный белок, он найден во множестве прокариот, причем во всех blastp выдает identity около 100%. Среди них есть и Salmonella typhi. Можно сказать, что есть вероятность, что это контиг из генома бактерии Salmonella typhi.
Использование GeneMark
Программа GeneMark тоже вычисляет участки, способные кодировать белок. Она использует эвристические алгоритмы. Получены графики (рис.4), на которых показаны черными толстыми прямыми следующие результаты:
Predicted genes Gene Strand LeftEnd RightEnd Gene # Length 1 - <3 599 597 2 - 589 1647 1059 3 - 1640 2878 1239
Вывод
Итак, кодирующий участок #1, выданный GeneMark, полностью совпадает с участком, выведенным сочетанием ORF Finder и blastp, за исключением начала гена (<3). Можно сказать, что GeneMark был более точным, поставив начало гена с третьего нуклеотида (рис. 4, зеленый круг). Третий предсказанный ген полностью совпал при использовании обоих способов. А вот участок #2 (589..1647) был опознан как ген программой GeneMark и только ORF Finder (рис.1). При поиске гомологов среди белков все находки показались мне не слишком достоверными: выравнивания открытой рамки с найденными белками не проходили по критерию Query cover >80%. Для каждой находки только 30-40% последовательности рамки было покрыто выравниванием. Можно сказать, что GeneMark хорошо справляется с нахождением генов. Однако я думаю, что более точный результат выходит при поиске белков, которые может кодировать этот ген, то есть использование blastp.