Учебный сайт Сергея Маргасюка

Предсказание генов эукариот

Расписная черепаха [1]

Предсказание генов было проведено для скэффолда NW_007281471, принадлежащего Chrysemys picta bellii (расписная черепаха) из семейства Emydidae (американские пресноводные черепахи).

Данный скэффолд содержит 2569866 п.н., на нем аннотированы 21 генов и 40 (с учетом изоформ) белок-кодирующих последовательностей. На рисунке 1 представлены мРНК и изоформы белка, транслируемого с гена KCNQ1, отображенные в геномном браузере.

Рисунок 1: геномный браузер 81000..686000

Для предсказания генов организма была использована программа AUGUSTUS, запущенная на сервере; вставка 1 содержит параметры запуска программы.

Вставка 1: текст
Prediction job ID: predDq6XeHEb
AUGUSTUS parameter project identifier: chicken
Genome file: sequence.fasta
User set UTR prediction: false
Report genes on: both strands
Alternative transcripts: none
Allowed gene structure: predict any number of (possibly partial) genes
Ignore conflictes with other strand: false
		

Для получения параметров модели был использован организм Gallus gallus domesticus, программа запускалась без предсказания нетранслируемых регионов, поиск генов производился на обеих цепях, без учета альтернативных транскриптов, с учетом возможности альтернативного сплайсинга; предполагаемые гены с разных цепей не должны пересекаться. В таблице 1 содержится информация о файлах, выданных программой.

Таблица 1: выдача AUGUSTUS
файл содержание
augustus.aa последовательности предположительно транслируемых белков в формате fasta
augustus.cdexons последовательности предсказанных экзонов в формате fasta
augustus.codingseq предсказанные белок-кодирующие последовательности в формате fasta
augustus.gbrowse трек предсказанных генов для программы GBrowse
augustus.gff предсказание генов в формате gff
augustus.gtf предсказание генов в формате gtf

Предсказание AUGUSTUS в целом мало совпадает с аннотацией GenBank: например, предсказано очень большое число мРНК и генов в участках, пустых в аннотации. Предсказание гена KCNQ1 также не очень удачно: хотя большая часть его интронов предсказана, они помещены программой в большое количество небольших генов. Это может быть объяснено тем, что программа оценивает качество предполагаемых генов по сходству с параметрами для организма, выбранного для построения модели: среди предложенных организмов ближайшим таксономически к рептилиям была птица, возможно, сходство организмов из разных классов недостаточно для поиска генов.

Ссылки


© Сергей Маргасюк, 2015-2016