На главную

Предсказание генов эукариот

Проведем предсказание генов для скэффолда NW_015160210, принадлежащего японскому геккону (Gekko japonicus, ящерица из семейства Gekkonidae). Длина скэффолда — 1993688 п.н., в нем аннотированы 25 генов и 41 кодирующая последовательность. Отдельно рассмотрим ген EPN2, для которого описан альтернативный сплайсинг.

мРНК и изоформы гена EPN2

Предсказание было проведено с помощью сервера AUGUSTUS, были использованы следующие параметры:

AUGUSTUS parameter project identifier: chicken
User set Utr prediction: false
Report genes on: both strands
Alternative transcripts: none
Allowed gene structure: predict any number of (possibly partial) genes
Ignore conflictes with other strand: false
  

Здесь отсутствует предсказание UTR (для него необходимы дополнительные данные), нет ограничений на количество генов, разрешено предсказание частей генов, производится поиск генов на обеих цепях, при этом предсказанные гены на разных цепях не должны пересекаться. В качестве модели была взята домашняя курица, поскольку рептилий в списке моделей не было.

файл данные
augustus.aa последовательности предсказанных белков в формате fasta
augustus.cdexons последовательности предсказанных экзонов в формате fasta
augustus.codingseq предсказанные CDS в формате fasta
augustus.gbrowse трек предсказанных генов для программы GBrowse
augustus.gff предсказание генов в формате gff
augustus.gtf предсказание генов в формате gtf
Выдача программы AUGUSTUS

Используем трек для сравнения с аннотацией.

Аннотация (сверху) и предсказание (снизу) генов скэффолда

Аннотация (сверху) и предсказание (снизу) гена EPN2

Видно, что некоторые гены предсказаны верно (например, TOM1L2), но длинные гены разбиты на большое количество частей, предсказанных как отдельные гены. По моему мнению, предсказание совершенно непригодно для применения: если при сравнении с существующей аннотацией и можно заметить какие-то общие черты, то восстановить аннотацию по выдаче AUGUSTUS не представляется возможным. Для гена EPN2 предсказана большая часть кодирующей последовательности, но структура интронов восстановлена не очень хорошо: первый длинный интрон, например, в предсказании отсутствует. Возможно, ошибка обусловлена тем, что в качестве модели выбрана птица, а не более близкий организм.


© Посицельская Екатерина, 2015