Предсказание генов эукариот

Описание выданного контига и одного из генов на нем, для которого предсказан альтернативный сплайсинг

Мне достался контиг NW_009798389, который на самом деле не контиг, а скэффолд (рис.1). Этот скэффолд принадлежит геному организма Aphanomyces astaci (strain APO3), который относится к классу Oomycetes, порядку Saprolegniales и является возбудителем так называемой чумы раков (рис.2). Размер скэффолда - 104721 bp. Кол-во генов - 28, кол-во CDS - 40. Надо сказать, что все CDS кодируют гипотетические белки, кроме двух (XM_009846864.1 и XP_009845170.1), одна из которых кодирует эукариотический фактор 6 инициации трансляции, а другая - TKL протеин киназу, причем эти CDS единственные в своих генах. Так как это скэффолд, в нем присутствуют нечитаемые участки - на рис.1 они показаны черным цветом сверху, а в последовательности они записаны буквами N. Также в скэффолде присутствуют гены или мРНК, обозначенные на рисунке несколькими темными стрелками, а в аннотации их координаты записаны с использованием знаков < и > . Это значит, что неизвестны точные границы гена.

Получен файл с последовательностью скэффолда в формате fasta - scaffold.fasta.


Рис.1 Изображение скэффолда NW_009798389 с указанием мРНК и CDS



Рис.2 Хвост рака, зараженного Aphanomyces astaci.

Можно заметить, что у некоторых генов существует 2 или более вариантов сплайсинга мРНК. Например, 2 варианта есть у гена H257_17891 (рис.3). В нем существует одновременно 2 мРНК, и, соответственно, может читатся 2 варианта белка: XP_009845155.1 и XP_009845154.1. В обоих белках найдено 5 доменов: TPR, TPR repeat, TPR_1, TPR_11 и TadD. Однако в варианте XP_009845154, который длиннее другого, обнаружился еще один домен ANAPC8 (все домены обозначены на рис.3 черным цветом).



Рис.3 Изображение гена H257_17891. Зеленым обозначен ген, фиолетовым мРНК, красным CDS, черным домены.

Предсказание генов и белок-кодирующих областей в выданном скэффолде

С помощью программы AUGUSTUS я попыталась предсказать гены в моем скэффолде. Параметры запуска программы ниже.

Prediction job ID: predC92BqDYP
AUGUSTUS parameter project identifier: tetrahymena
Genome file: scaffold.fasta
User set UTR prediction: true
Server set UTR prediction: false [UTR parameters missing or conflict with allowed gene structure!]
Report genes on: both strands
Alternative transcripts: none
Allowed gene structure: predict any number of (possibly partial) genes
Ignore conflictes with other strand: false

Мой скэффолд принадлежит организму из царства Stramenopiles, представителей которого не было в списке организмов для параметров модели. Зато там были представители царства Alveolata, которые, как и Stramenopiles, входят в состав более крупного таксона Chromalveolata. Поэтому для параметров модели был взят представитель альвеолят Tetrahymena thermophila.

Полученный файл predictions.tar.gz был распакован командой

tar -xzvf *.tar.gz
, и получились следующие файлы:
augustus.aaПоследовательности трансляций предсказанных генов в формате fasta
augustus.cdexonsПредсказанные экзоны в формате fasta
augustus.codingseqПредсказанные CDS в формате fasta
augustus.gbrowseКоординаты всех найденных особенностей в формате gtf
augustus.gffКоординаты всех найденных особенностей в формате gff
augustus.gtfКоординаты всех найденных особенностей в формате gtf

Всего AUGUSTUS предсказал 66 генов. Но ни один из них не совпадал с аннотированными полностью. Только один (20819889) совпал по 5' концу. И это был не тот ген, который описывала я. Вдобавок, ему присуще такое явление как partial start, то есть границы гена не известны точно и определяются исходя из его мРНК или даже CDS (как и было в данном случае). Что касается CDS, то всего их нашлось 156, из них 14 совпадают с аннотированными по обоим концам, 11 только по 3' и 27 только по 5'. Тут стоит заметить, что CDS в данном случае (случае gtf файла) это не последовательность, с которой читается один белок, а кусок такой последовательности, не разделенный интронами в исходной последовательности, то есть одна запись в gtf файле, помеченная как CDS. Неизвестно, почему все предсказалось так плохо. Хотя этого следовало ожидать, ведь эукариотические гены очень сложно устроены.


© Герасева Е.П. 2015