ФББ 2013-2014
Предсказание генов у прокариот
Открытая рамка считывания - это последовательность ДНК, начинающаяся со старт-кодона и не содержащая в себе стоп-кодона, которая возможно кодирует белок. В задании 1 требовалось найти все открытые рамки считывания заданного контига. Этот контиг взят из микробиома кардиального отдела желудка валлаби (маленькое австралийское сумчатое). То есть работа будет проводиться с бактериальным геномом. Для нахождения открытые рамки считывания с помощью программы ORF finder на сервере NCBI.
На вход программе подаётся последовательность в фаста-формате (или её идентификатор). Параметр, который можно задать - таблица генетического кода. Представлено целых 25 вариантов, т.к. у некоторых организмов может отличаться старт-кодон и другие особенности. По умолчанию стоит стандартная таблица, в которой начало трансляции допускается с AUG (стандартный), GUG, UUG. Также существует таблица ген. кода для бактерий, архей, пластид и вирусов прокариот. При её использовании трансляция допускается с AUG, GUG, UUG, CUG, AUU. Запустим Getorf два раза с разными таблицами. Получившиеся результаты можно видеть на рисунке 1. Как видно, отличия есть, но они незначительны.
Рис.1 Открытые рамки считывания, полученные с помощью программы GetOrf. Слева использовался стандартный ген. код, справа - ген. код для прокариотических организмов.
Из получившихся результатов выберем те, длина которых в нуклеотидах больше 180 пар оснований. Таких результатов 4, но возьмём мы только первые 3, т.к. четвертая находка по длине сильно меньше, чем другие три, а также она перекрывается с первой. Первая и третья находка сильно перекрываются, но на мой взгляд достовернее первая, т.к. она длиннее. Проверим это, запустив blastp. Выбранная база данных - swissprot.
Что-то похожее на гомологи было найдено для двух находок Getorf - первой и второй, то есть для самых длинных. Результаты представлены в таблице 1.
Таблица 1. Найденные открытые рамки считывания и их возможные белковые гомологи
Начало | Конец | Длина | Цепь | Описание | Организм, из которого взят гомолог | E-value находки | Покрытие | Сходство |
140 | 1321 | 393 | - | АТФаза ААА | Paraprevotella clara, Paraprevotella xylaniphila, Bacteroides fluxus | 0.0 | 100% | 70% |
1723 | 2592 | 289 | - | Агматиновая деиминаза | Bacteroides coprosuis | 4e-113 | 97 | 58% |
Организмы, принадлежащие родам Bacteroides и Paraprevotella, входят в состав микробиома зверей, что логично. Это дополнительное доказательство того, что найденные гомологи достоверны.
GeneMark
Программа GeneMark также используется для предсказания генов. Она работает по эвристическому алгоритму. На вход даём тот же контиг, что и в первом задании. В итоге GeneMark предсказала два возможных гена, оба из которых находятся на обратной цепи. На выходе было получено 2 файла: PDF-файл с результатами и и файл с результатами в таблице. График кодирующего потенциала из PDF-файла можно увидеть на рисунке 2.
Рисунок 2 График кодирующего потенциала в данной последовательности. Жирные горизонтальные линии обозначают найденный ген.
В таблице 2 описаны найденные с помощью GeneMark гены.
Таблица 2 Характеристика генов, предсказанных с помощью программы GeneMark.
Начало | Конец | Длина | Цепь |
140 | 1321 | 393 | - |
1723 | 2592 | 289 | - |
Сравнение предсказаний
Как можно видеть из таблиц 1 и 2, оба подхода смогли выявить 2 гена, которые с большой долей вероятности действительно существуют. В поиске с помощью GetOrf появляется больше побочных результатов, но, что понравилось лично мне, есть возможность выбрать таблицу генетического кода, в то время как в GeneMark нет такой тонкой настройки. В то же время, предсказание с помощью GetOrf + Blast более трудоёмкое и долгое, так как приходится вручную отбирать нужные результаты и бласт долго работает. Предсказанные с помощью GeneMark гены необходимо также необходимо было бы проверять с помощью поиска гомологов, если бы изначально использовалась только эта программа.
Запуск GeneMark с другими эвристическими параметрами
В 2010 году были разработаны другие эвристические параметры для работы с метагеномами. Выберем их для поиска генов в том же самом контиге. Полученные файлы: здесь и здесь. В результате были предсказаны те же два гена, что и ранее, но было и новое предсказание. Как видно из файла таблицы с результатами, программа посчитала, что с <3 до 74 пары оснований может быть также закодирован какой-то продукт.
Для того, чтобы разобраться, действительно ли там что-то закодировано, воспользуемся бластом по нуклеотидной последовательности и по белковой последовательности (просто трансляция с нуклеотидной). Несмотря на маленький размер, результат вполне может быть, если будем требовать очень большого совпадения (больше 95%) и очень маленького e-value. Используемы последовательности только что обнаруженного гена:
>gene_1|GeneMark.hmm|72_nt|-|3|74 >Khven ATGGCTAAGAAATTTATCACTTGTGATGGTAATACCGCTGCAGCACATATTGCTTATATG TTCTCAGAGGTA >gene_1|GeneMark.hmm|24_aa|-|3|74 >Khven MAKKFITCDGNTAAAHIAYMFSEV
Запуск бласта по нуклеотидам (blastn) выдал несколько полных геномов бактерий, в которых были похожие участки. Лучшее сходство - 91%, однако никакой полезной информации это не дало. Запустим бласт по белковой последовательности. Здесь обнаружился интересный, на мой взгляд, результат: самая лучшая находка имеет 96% совпадений, e-value 3e-06. Естественно, выровнялся только маленький кусок этого белка. Находка принадлежит симбиотической бактерии Prevotella sp. oral taxon 473, которая содержится в микробиоте человека и других млекопитающих, что может служить дополнительным аргументом за её достоверность. Найденный белок - пируват-синтетаза, возможно, что и в изучаемом контиге закодирован кусочек пируват-синтетазы.