Учебный сайт Алены Корягиной

Предсказание генов у прокариот

Предсказание генов является очень интересной и актуальной задачей современной биоинформатики. В данной работе будет рассмотрено предсказание генов у прокариот.

Был взят данный контиг (набор перекрывающихся фрагментов ДНК ) из микробиома кардиального отдела желудка болотного валлаби (Wallabia bicolor). Это животное является представителем вида австралийских  сумчатых малого размера (см. рис.1).

Рис.1. Wallabia bicolor

Предсказывать гены у прокариот можно несколькими способами.

Один из способов — найти открытые рамки считывания в исследуемом контиге. А затем для каждой найденной последовательности проверить: могут ли быть данные рамки быть белок-кодирующими генами, для этого найти близкие последовательности в банке Swiss-Prot.

Для поиска открытых рамок считывания использовалась онлайн программа ORF Finder, также для этой цели можно пользоваться программой getorf из пакета EMBOSS. В качестве входных данных была введена последовательность контига и выбран бактериальный геном. В результате получили список всех возможных открытых рамок, их нашлось 19 штук, и некоторое их графическое представление (см.рис.2). Потом с помощью алгоритма BLASTР был проведен поиск близких последовательностей для каждой рамки, длина которой превышает 60 триплетов. Для 14 рамок находилось от 0 до 2-х последовательностей с высоким значением E-value и низким процентом покрытия, из чего был сделан вывод, что эти 14 рамок не являются белок-кодирующими генами. Для одной рамки, раположенной с 1 по 344 нуклеотид, было найдено 22 похожих последовательностей, но для них также было высокое E-value и низкий процент покрытия. Я предположила, что, возможно, данная рамка начинается раньше, то есть еще до начала последовательности контига. Но после просмотра выравниваний находок с данной рамкой я сделала вывод, что данное предположение неверно, так как все найденные гены начинаются всего на 1-4 нуклеотида раньше, что не может сыграть существенную роль в предположении этой рамки в качестве белок-кодирующего гена.

Рис.2. Графическое представление и координаты открытых рамок в последовательности контига из микробиома кардиального отдела желудка Wallabia bicolor.

Для оставшихся 4-х было найдено много «хороших» и достоверных (E-value < 0,001 и высокий процент покрытия выравниванием) близких последовательностей. Информация по ним представлена в таблице 1.

Таблица 1. Информация о генах контига из микробиома кардиального отдела желудка Wallabia bicolor, полученная с помощью программы ORF Finder и алгоритма BLASTP.

№ гена Начало гена Конец гена Длинна гена в а.о. Направление цепи Описание гена
1 345 1110 756 - белок-переносчик катионов металла через мембрану клетки
2 1113 1556 444 - транскрипционный регулятор семейства MarR
3 1562 2110 549 - глутатионпероксидаза
4 2393 2821 429 - рибосомальный белок L9 субеденицы 50s

Для первой рассмотренной рамки, расположенной с 345 нуклеотида по 1110, было найдено 100 близких последовательнослей, каждое выравнивание с которыми имеют покрытие больше 88 процентов и E-value < 3e-40. Белок, кодируемый этим предполагаемым геном, относится к суперсемейству ZIP, белков, которые выполняют роль переносчиков различных металлов через мембрану клетки. Найденные белки определены как Zn2+, Zn2+/Fe2+ пермеазы либо как белок gufA (тоже транспортер металлов) или просто как транспортер металлов или мембранный белок. Так как все находки обладают очень высокими параметрами достоверности и «близости» к исследуемому предположительному гену, вывод о функции белка был сделан не на основании одной конкретной находки из какого-то организма, а на основании всех находок. Таким образом, вывод был следующим: предполагаемый ген соответствующей рамки кодирует белок, встроенный в мембрану и осуществляющий транспорт катионов металла через мембрану клетки, скорее всего Zn2+ и/или Fe2+. Но называть точно этот белок пермеазой мы не будем. Транспорт катионов металлов играет очень важную роль для жизнедеятельности клетки. Катионы металлов могут выполнять различные функции, например, быть стуктурным компонентом каких-либо молекул, выполнять сигнальную функцию, быть кофактороми а различных биомолекулах, выполнять функцию переноса электронов и многое другое [1].

Следующая рамка (1113..1556) предположительно является геном, продуктом которого является транскрипционный фактор семейства MarR. Этот вывод был сделан на том основании, что все находки в количестве 100 штук обладают высокими параметрами достоверности (E-value < 6е-33 и покрытие больше 78%) и практически все определены как транскрипционный фактор семейства MarR. Лучшей находкой ( E-value = 3e-61, покрытие 100%, идентичность 61%) является белок из бактерии Prevotella sp. HUN102 (ID WP_028897063.1). Транскрипционный фактор семейства MarR — белок, который, попадая в ядро, регулирует транскирипцию генов множественной лекарственной устойчивости, например, белков, устойчевых к каким-либо антибиотикам, органическим растворителям или дезинфецирующим средствам [2]. Последние играют важнейшую роль в выживании бактерий.

Белок, закодированный в третьей рамке (1562..2110), был предположен как глутатионпероксидаза — фермент, который защищает организм от окислительного повреждения, катализируя восстановление перекисей липидов в соответствующие спирты и восстановление пероксида водорода до воды. Для этой рамки было найдено около 100 находок близких последовательностей с очень хорошими показателями их достоверности (E-value < 5e-52 и покрытие больше 89%), из которых больше 98% описаны как глутатионпероксидаза. Лучшей находкой (E-value = 2е-64, покрытие 100%, идентичность 56%) является белок, описанный как глутатионпероксидаза, из бактерии Alloprevotella rava (ID WP_009347875.1).

Для последней четвертой открытой рамки было также найдено около 100 близких последовательностей (E-value < 1е-19 и покрытие больше 67%). Единогласно все найденные белки описываются как рибосомальные белки L9. Лучшей находкой с E-value = 7е-27, покрытием 94%, идентичностью 49% является белок из бактерии Prevotella veroralis (ID WP_018909872.1). Белок L9 является одним из 34 белков, входящих в состав большой субъединици 50S прокариотической рибосомы (70S), и выполняет важную роль в осуществлении трансляции.

Таким образом, проверкой было подтверждено, что эти гены являются достоверными, а также, что белки, кодируемые этими генами, и их функции никак не противоречат месту обитания исследуемой бактерии. И мы пришли к выводу, что подробно описанные выше рамки действительно могут быть белок-кодирующими генами для бактерии, живущей в желудке животного.

Другой способ предсказывания генов — использование программы GeneMark. В результате работы данной программы получили 2 файла: файл, содержащий координаты генов, файл в pdf-формате с графиком кодирующего потенциала. Далее на основании этих данных была составлена таблица аналогичная первой (табл.2).

Таблица 1. Информация о генах контига из микробиома кардиального отдела желудка Wallabia bicolor, полученная с помощью программы GeneMark.

№ гена Начало гена Конец гена Длинна гена в а.о. Направление цепи
1 <3 260 258 -
2 345 1100 756 -
3 1113 1556 444 -
4 1562 2110 549 -
5 2393 2821 429 -

Обратим внимания, что данным способом найдено 5 генов, 4 из которых по координатам полностью совпадают с найденными, а один ген ранее найден не был (в таблице 2 выделен красным цветом). Данный ген расположен с какого-то нуклеотида до третьего по 260. Теперь вернемся к рисунку 2, на котором графически представлены возможные открытые рамки. Примерно подходящая рамка расположена с 1 по 268 нуклеотид. В результате работы алгоритма BLASTР было найдено всего две последовательности с очень высоким значением E-value, что говорит о недостоверности данных генов. Далее была проверена последовательность с 3 по 260 нуклеотид, программой BLASTX было найдено 14 последовательностей, но у лучшей находки E-value = 0.28, и каждая последовательность была описана по разному, что говорит о их недостоверности. Также были просмотрены выравния и не было обнаружено, что данный ген может начинаться за пределами контига. Таким образом, я нахожу данный ген не достоверным и не буде включать его в список белок-кодирующих генов.

Дальше был проведен аналогичный эксперимент с программой GeneMark, но с измененными эврестическими параметрами: сначала по умолчанию стояли эврестические параметрами 1999 года, которые изменили на параметры 2010 года. Были получены два файла: с координатами генов и графиком кодирующего потенциала. При сравнении этих файлов с полученными ранее при других эврестических параметрах никаких значительных различий выявлено не было.

В конце концов, по результатам данной работы был сделан вывод, что в исследуемом контиге точно располагаются 4 белок-кодирующих гена. Ниже представлено схематическое изображение расположения этих генов на комплементарной цепи.

3'------[345<=1100]-[1113<=1556]-[1562<=2110]---[2393<=2821]--5'

*Спасибо Кате Щвецовой за идею представления расположения генов.

Источники:

[1] http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2783614

[2] http://cdn.intechopen.com/pdfs/34700/InTech-The_marr_family_of_transcriptional_regulators_a_structural_perspective.pdf

© Alyona Koryagina aakor@fbb.msu.ru

Дата последнего изменения: 01.12.2014