Главная страница Обучение Обо мне Ссылки

Предсказание генов эукариот

Задание 1. Предсказание генов эукариотического организма с помощью ресурса AUGUSTUS

Для предсказания генов в эукариотическом геноме X5 был выбран unplaced-717.fasta, чья длина составляет 46913 пн.

Предсказание планировалось делать с помощью ресурса AUGUSTUS. Для этого необходимо либо обучить данную программу распознавать гены эукариот (для этого используются гомологи хорошо изученных генов или транскриптомы), либо использовать предсказание генов близкородственного организма как основу для предсказания генов интересующего (неизвестного) организма. Был выбран второй путь. Для этого сначала нужно было найти близкого родственника организма с геномом X5.

Для поиска организма, близкого Х5, который подошел бы для обучения AUGUSTUS, для последовательности unplaced-717.fasta был запущен BLAST, алгоритм blastx, который читает входную нуклеотидную посл-ть в 6 рамках считывания и ищет по полученным посл-тям белковых гомологов. Таким образом, он может найди кодируемые входной посл-тью белки. Параметры blastx: ограничение по таксону (были выбраны только fungi, так как несколько запусков blast для других скэффолдов показали, что большинство находот принадлежит этому таксону), исключение Models (XM/XP) и Uncultured/environmental sample sequences. Несколько лучших находок принадлежали представителям рода Rhizopus (рис. 1), а также Spizellomyces, который входит в родственный порядок с Rhizopus. Поэтому для обучения был выбран организм Rhizopus oryzae.

Рис. 1. Фрагмент списка находок blastx для посл-ти unplaced-717.fasta.

Затем было проведено предсказание генов в этом контиге с помощью AUGUSTUS. Результаты доступны по ссылке, оттуда же был скачан архив predictions.tar.gz. В нем содержатся несколько интересующих нас файлов.

Описание файлов в архиве, полученном в результате предсказания:

  • augustus.aa - fasta-файл с аминокислотными последовательностями продуктов предсказанных генов. В моем файле 15 таких последовательностей
  • augustus.cdsexons - fasta-файл с нуклеотидными последовательностями экзонов каждого гена. Есть гены из нескольких экзонов, есть и те, в которые входит только один экзон (судя по этому файлу)
  • augustus.codingseq - fasta-файл с нуклеотидными последовательностями полных кодирующих фрагментов (cds)
  • augustus.gbrowse - файл в табличном формате с информацией о структурных элементах пре-мРНК: о направлении цепи, об инициаторной/терминальной последовательности, об интронах, экзонах, старт- и стоп-кодонах. Эта информация затем понадобится геномному браузеру для предсказания белков - продуктов предсказанных генов.
  • augustus.gff - файл, содержащий всю вышеописанную информацию (координаты интронов, cds, инициаторных и терминальных посл-тей, старт и стоп-кодонов), а также собственно последовательность гена и его продукта
  • augustus.gtf - файл, содержащий ту же информацию в ином формате (сплошная таблица без разделений на блоки-гены)

Проверка предсказания на уровне белков

Для проверки случайным образом были выбраны гены g1, g2, g5, g9 и g4. Предсказание проверялось с помощью алгоритма blastp.

1. g1

Результаты оказались не очень благоприятными: на рис. 2 приведены все находки, полученные blastp. Было проведено 2 поиска - по базе данных nr и по SwissProt. Оба варианта дали не очень высокие параметры выравниваний. Кроме того, по nr получается, что белок, кодируемый геном g1, гомологичен экзонуклеазе II из организма Schizosaccharomyces octosporus yFS286 (рис. 2а), а по SwissProt (рис. 2b) - Dentatorubral-pallidoluysian atrophy protein из организмов млекопитающих (мышь, крыса, человек и др.). Такие находки назвать достоверными нельзя.

Рис 2а. Фрагмент списка находок blastp для посл-ти g1.fasta. Результат поиска по nr.

Рис. 2b. Фрагмент списка находок blastp для посл-ти g1.fasta. Наверху показан результат поиска по SwissProt.

2. g2

Ситуация с данным предполагаемым белком обстоит еще хуже: гомологи не были найдены ни по одной базе данных. AUGUSTUS полностью ошибся.

3. g5

С этим белком повезло больше: нашлось много гомологов с неплохими параметрами query cover и e-value, самые лучшие из них (приведена на рис. 3) принадлежат Fungi и имеют похожие названия.

Рис 3а. Фрагмент списка находок blastp для посл-ти g5.fasta.

Рис 3b. Фрагмент визуализации blastp для посл-ти g5.fasta: доменная структура и графическое представление первых выравниваний.

Учитывая полученные результаты построения доменной структуры и находки бласта, можно заключить, что белок, закодированный в 5-ом гене, является НАДФ-связывающим.

4. g9

Он аннотировался хорошо, много достоверных находок, но ... они принадлежат в основном муравьям. См. рис.4. Возможно, дело в том, что это 40S-рибосомальный белок. Рибосомальные белки сами по себе являются очень консервативными структурами, поэтому можно предположить вероятность, что даже у настолько филогенетически дальних родственников, как муравей и гриб, эти белки будут сильно схожи.

Рис 4а. Фрагмент списка находок blastp для посл-ти g9.fasta. Синим обведены находки, относящиеся к "грибным" последовательностям, а желтым - находки из различных видов муравьев.

Рис 4b. Фрагмент визуализации blastp для посл-ти g9.fasta: доменная структура и графическое представление первых выравниваний.

Для всех выравниваний характерно наличие одного гэпового участка длиной 18 позиций в query. Отсутствующий фрагмент может указывать на то, что AUGUSTUS не нашел один экзон, который должен был быть в мРНК. "Гэповую архитектуру" выравнивания можно увидеть на рис. 5.

Рис 5. Выравнивание g9 с 4 лучшими находками blastp. Одинаковый блок гэпов во всех выравниваниях взят в красную рамку.

5. g4

Судя по результатам blastp (рис. 6), ситуация довольно интересная: высокий query cover, но очень низкое сходство (в общем по находкам Identity < 50%). Тем не мнеее, белок определен как гликозилгидролаза, если верить самым первым находкам, а если не верить им, то как он как минимум входит в семейство белков с альфа-амилазным доменом. Это подтверждается построенной доменной структурой (рис. 6b), а также описанием гипотетического белка из организма Pseudogymnoascus sp. разных штаммов. Оно приведено на рис. 7. Видно, что в нем есть уже упоминавшийся домен.

Рис 6а. Фрагмент списка находок blastp для посл-ти g4.fasta.

Рис 6b. Фрагмент визуализации blastp для посл-ти g4.fasta.

Рис 7. Описание гипотетического белка V496_04349 из организма Pseudogymnoascus sp. VKM F-4515 (для других организмов все аналогично).

Так как покрытие последовательности почти 100% в большинстве случаев, а score низкий, можно заподозрить то, что для этого белка была неверно определена экзон-интронная структура. Это заметно по большим фрагментам гэпов в "хороших" выравниваниях (см. рис. 8).

Рис 8. Выравнивание g4 с находками blastp. Слева с лучшей находкой - гликозидгидролазой из организма Metarhizium guizhouense ARSEF 977,справа - с находкой из Metarhizium robertsii ARSEF 23. В красных рамках длинные фрагменты гэпов в query-последовательности.

Такой вид выравнивания присущ не только первой находке в списке Blast, но и всем похожим находкам. Скорее всего, при аннотации четвертого гена была нарушена экзон-интронная структура. Это подтверждается тем, что "рисунок" гэпов в выравниваниях примерно одинаков (для примера приведено еще одно выравнивание на рис. 8).

Задание 2. Сравнение аннотации RefSeq и AUGUSTUS для одного гена человека

В качестве проверяемого гена человека был взят ген OGDH, кодирующий фермент 2-оксоглутаратдегидрогеназу. Его Gene ID в NCBI - 4967. Ген закодирован на +-цепи 7 хромосомы, координаты chr7:44606522-44709070 (и размер гена 102549 пн). Использовался ресурс USCS Genome Browser. На рис. 9 показано окно Genome Browser с изображением экзон-интронной структуры гена OGDH с тремя трэками: base position, RefSeq и AUGUSTUS.

Рис. 9. Изображение экзон-интронной структуры гена OGDH.

При обработке аннотаций RefSeq и AUGUSTUS в табличной форме я столкнулась с проблемой: в RefSeq по Genome Browser было дано целых 3 разных аннотации с идентификаторами NM_002541, NM_001165036, NM_001003941, для них было указано 23, 23 и 9 экзонов соответственно. По-видимому, это были аннотации для разных изоформ белка OGDH. Я проверила каждый из идентификаторов в NCBI, и там было сказано, что на данный момент в этом гене насчитывают 26 экзонов. Таким образом, изоформы, содержащей в себе все количество экзонов, hg38 не представлено. Для дальнейшей работы я оставила аннотацию с идентификатором NM_002541 и 23 экзонами. Аннотация AUGUSTUS была проведена по 3 транскиптам. Количество полученных экзонов различается: в первом (AUGUSTUS t1) аннотировано 23 экзона, во втором (AUGUSTUS t2) - 24, а в третьем (AUGUSTUS t3) аж 41 экзон.

Итак, были получены таблицы с аннотацией RefSeq и AUGUSTUS.
Они были сведены в один файл: Таблица с аннотациями RefSeq и AUGUSTUS.

некоторые выводы о различиях двух приведенных аннотаций:

  • Прежде всего нужно заметить, что в аннотации AUGUSTUS начальные и конечные координаты транскрипции отличаются от таковых в аннотации RefSeq, между собой они тоже различны. Помимо отличий в координатах транскрипции есть еще различия в координатах собственно кодирующих последовательностей. Единственным компромиссом, на котором эти аннотации "сошлись", можно считать координату начала cds - во всей аннотациях это 44624343.
  • Странным мне показался факт, что и AUGUSTUS, и RefSeq начинают распознавать экзоны с самого начала (со стартовой координаты транскрипции). Это противоречит молекулярной биологии процесса транскрипции, так как помимо экзонов и интронов (в пре-мРНК) мРНК содержит кэп, поли-А хвост на 5'и 3'-концах соответственно, а так же 5'-UTR и 3'-UTR - нетранслируемые посл-ти. Как я понимаю, они как раз занимают ту область между стартовой координатой транскрипции и началом cds и, соответственно, концом cds и конечной координатой транскрипции.
  • Из-за вышеописанного пункта в аннотациях неизменно возникают лишь частично кодирующие, а также некодирующие экзоны. В наиболее "широкой" аннотации AUGUSTUS (содержащей 41 экзон) в нетранслируемую область попадают целых 2 полностью некодирущих экзона.
  • Конкретно про "большую" аннотацию с 41 экзоном можно сказать, что новые экзоны добавились к списку прежних за счет того, что конечная точка транскрипции оказалась сдвинута на ~100 000 пн вперед за счет увеличения длины кодирующей последовательности примерно на 93 килобаз. Из-за этого в кодирующую последовательность попало на 17 экзонов больше.
  • Остаток от деления длины кодирующей последовательности на 3 не всегд равен 0. Это нормально, поскольку из-за нетранслируемых последовательностей рамка считывания может сдвигаться на некоторые количество нуклеотидов. Важно, чтобы суммарная длина cds была кратна трем. Однако в моем случае и это не всегда верно.
  • Насчет интронов и их длин можно сказать, что они варьируются тогда, когда меняется экзонный состав всей последовательности.

В целом хочется отметить, что аннотации с помощью RefSeq и AUGUSTUS не внесли ясности в экзон-интронную структуру данного гена. Не очень также понятно, какой из этих БД можно доверять больше.

На страницу третьего семестра


© Alexandra Boyko, 2014. Faculty of Bioengineering and Bioinformatics, MSU.