Предсказание генов у прокариот

Поиск открытых рамок считывания программой ORF Finder

Целью данного упражнения было найти открытые рамки считывания длиной более 60 триплетов в заданном контиге микробиома кардиального отдела желудка валлаби. Для этого использовался онлайн-сервис ORF Finder на NCBI. Поиск проводился с использованием бактериального генетического кода.

Как видно из рис.1, подходящими по длине оказались 4 рамки:


Рис.1. Результаты поиска ORF Finder

Далее для найденных рамок был проведен поиск гомологов алгоритмом blastp на сайте NCBI в базе данных SwissProt. В результате достоверных гомологов (E-value<0.001, Query cover >80%) для рамок с координатами 1727-1389 и 2145-1948 не нашлось.

Для двух других найденных рамок существует большое число гомологов. Кроме того, построенные программой BLAST выравнивания покрывают концы этих рамок, что говорит о достоверности рамок. В результате была построена таблица 1, показывающая координаты найденных рамок и функции закодированных ими белков.

Таблица 1. Найденные рамки
Начало Конец Длина в а.о. Цепь Описание
421 1266 281 + 2,3,4,5-тетрагидропиридин-2,6-дикарбоксилат N-сукцилилтрансфераза(2,3,4,5-tetrahydropyridine-2,6-dicarboxylate N-succinyltransferase)
47 391 114 + Бифункциональная уридилтрансфераза/уридил-удаляющий фермент(Bifunctional uridylyltransferase/uridylyl-removing enzyme)

GeneMark

Далее был проведен аналогичный поиск рамок программой GeneMark. В результате был получен график кодирующего потенциала данного контига. Из него можно сделать вывод, что GeneMark нашла 5 вероятных рамок считывания, одна из которых выходит за пределы контига. Еще одна рамка не подходит для нашего поиска по длине. Итого имеем 4 рамки, описанные в таблице 2.

Таблица 2. Найденные рамки
Начало Конец Длина в а.о. Цепь
<2 391 130 +
421 1266 281 +
1727 1389 112 -
2145 1948 65 -

Сравнение предсказаний

Как видно из таблиц 1 и 2, а также рис.1, программы ORF Finder и GeneMark получили очень близкие результаты. Рамки на обратной цепи идентичны, однако GeneMark не учитывет отсутствие у них гомологов. Вероятность наличия в контиге каких-то уникальных белков низкая. Поэтому делаем вывод, что работа GeneMark требует дальнейшей ручной проверки с использованием BLAST. На прямой цепи GeneMark счел, что рамка считывания ближе к краю контига начинается все его границ. Однако согласно результатам BLAST, у белка, найденного ORF Finder сужествуют достоверные гомологи, примерно равные ему по длине, что подтверждает потребность проверки результатов GeneMark. На рис.2 показано перекрывание координат найденных в двух программах рамок.


Рис.2. Сравнение координат найденных рамок. Рамки GeneMark красные, рамки ORF Finder синие. Область перекрывания - штриховка.
© Маслова Валентина, 2014
Последнее изменение: 24.09.2014