Проведем предсказание генов для скэффолда NW_015160210, принадлежащего японскому геккону (Gekko japonicus, ящерица из семейства Gekkonidae). Длина скэффолда — 1993688 п.н., в нем аннотированы 25 генов и 41 кодирующая последовательность. Отдельно рассмотрим ген EPN2, для которого описан альтернативный сплайсинг.
Предсказание было проведено с помощью сервера AUGUSTUS, были использованы следующие параметры:
AUGUSTUS parameter project identifier: chicken User set Utr prediction: false Report genes on: both strands Alternative transcripts: none Allowed gene structure: predict any number of (possibly partial) genes Ignore conflictes with other strand: false
Здесь отсутствует предсказание UTR (для него необходимы дополнительные данные), нет ограничений на количество генов, разрешено предсказание частей генов, производится поиск генов на обеих цепях, при этом предсказанные гены на разных цепях не должны пересекаться. В качестве модели была взята домашняя курица, поскольку рептилий в списке моделей не было.
файл | данные |
augustus.aa | последовательности предсказанных белков в формате fasta |
augustus.cdexons | последовательности предсказанных экзонов в формате fasta |
augustus.codingseq | предсказанные CDS в формате fasta |
augustus.gbrowse | трек предсказанных генов для программы GBrowse |
augustus.gff | предсказание генов в формате gff |
augustus.gtf | предсказание генов в формате gtf |
Используем трек для сравнения с аннотацией.
Видно, что некоторые гены предсказаны верно (например, TOM1L2), но длинные гены разбиты на большое количество частей, предсказанных как отдельные гены. По моему мнению, предсказание совершенно непригодно для применения: если при сравнении с существующей аннотацией и можно заметить какие-то общие черты, то восстановить аннотацию по выдаче AUGUSTUS не представляется возможным. Для гена EPN2 предсказана большая часть кодирующей последовательности, но структура интронов восстановлена не очень хорошо: первый длинный интрон, например, в предсказании отсутствует. Возможно, ошибка обусловлена тем, что в качестве модели выбрана птица, а не более близкий организм.