Предсказание генов у прокариот |
|||||||||||||||||||||||||||||||||||||||||||||||
|
Поиск открытых рамок считывания программой ORF FinderЦелью данного упражнения было найти открытые рамки считывания длиной более 60 триплетов в заданном контиге микробиома кардиального отдела желудка валлаби. Для этого использовался онлайн-сервис ORF Finder на NCBI. Поиск проводился с использованием бактериального генетического кода. Как видно из рис.1, подходящими по длине оказались 4 рамки: Рис.1. Результаты поиска ORF Finder Далее для найденных рамок был проведен поиск гомологов алгоритмом blastp на сайте NCBI в базе данных SwissProt. В результате достоверных гомологов (E-value<0.001, Query cover >80%) для рамок с координатами 1727-1389 и 2145-1948 не нашлось. Для двух других найденных рамок существует большое число гомологов. Кроме того, построенные программой BLAST выравнивания покрывают концы этих рамок, что говорит о достоверности рамок. В результате была построена таблица 1, показывающая координаты найденных рамок и функции закодированных ими белков.
Таблица 1. Найденные рамки
GeneMarkДалее был проведен аналогичный поиск рамок программой GeneMark. В результате был получен график кодирующего потенциала данного контига. Из него можно сделать вывод, что GeneMark нашла 5 вероятных рамок считывания, одна из которых выходит за пределы контига. Еще одна рамка не подходит для нашего поиска по длине. Итого имеем 4 рамки, описанные в таблице 2.
Таблица 2. Найденные рамки
Сравнение предсказанийКак видно из таблиц 1 и 2, а также рис.1, программы ORF Finder и GeneMark получили очень близкие результаты. Рамки на обратной цепи идентичны, однако GeneMark не учитывет отсутствие у них гомологов. Вероятность наличия в контиге каких-то уникальных белков низкая. Поэтому делаем вывод, что работа GeneMark требует дальнейшей ручной проверки с использованием BLAST. На прямой цепи GeneMark счел, что рамка считывания ближе к краю контига начинается все его границ. Однако согласно результатам BLAST, у белка, найденного ORF Finder сужествуют достоверные гомологи, примерно равные ему по длине, что подтверждает потребность проверки результатов GeneMark. На рис.2 показано перекрывание координат найденных в двух программах рамок. Рис.2. Сравнение координат найденных рамок. Рамки GeneMark красные, рамки ORF Finder синие. Область перекрывания - штриховка. |
||||||||||||||||||||||||||||||||||||||||||||||
© Маслова Валентина, 2014 Последнее изменение: 24.09.2014 |