Предсказание генов эукариот

I

Выданный контиг NW_011048400 длиной 600543 пар оснований принадлежит Beta vulgaris, или Свёкле обыкновенной (таксономическое положение: Eukaryota; Viridiplantae; Embryophyta; Magnoliophyta; Caryophyllales; Chenopodiaceae; Betoideae; Beta; Beta vulgaris). В контиге 35 генов и 40 CDS. В данном контиге присутствует ген, для которого обнаружен альтернативный сплайсинг.

Вообще говоря, по всей видимости, это ошибка аннотации, потому что на изображении видно, что внутри интрона располагаются другие гены, а такое встречается достаточно редко. Причём несмотря на различия в изоформах мРНК (обозначены синим), последовательности белков (обозначены красным) не различаются.

II

Далее при помощи сервиса AUGUSTUS на данном скэффолде были предсказаны гены. Запуск сервиса был произведён со следующими параметрами:

Prediction job ID: predZiJ_AfQW
AUGUSTUS parameter project identifier: arabidopsis
Genome file: bv.fasta
User set UTR prediction: true
Report genes on: both strands
Alternative transcripts: few
Allowed gene structure: predict any number of (possibly partial) genes
Ignore conflictes with other strand: false

В качестве модели был взят арабидопсис из-за его хорошей изученности (Резуховидка Таля — хороший модельный организм), а также филогенетической близости (это тоже двудольное растение). В качестве дополнительных параметров был предложен поиск нетранслируемых областей мРНК (UTR), а также нескольких альтернативных форм транскриптов. Поиск генов производился на обеих цепях. После выполнения поиска генов AUGUSTUS выдал архив со следующими файлами внутри:

РасширениеСодержание
*.aa
Предсказанные гены в виде fasta-последовательности белков
*.cdsexons
Предсказанные экзоны в fasta-последовательности ДНК
*.codingseq
Предсказанные гены в виде fasta-последовательности кодирующих участков ДНК
*.gbrowse
Трэк-файл предсказания для GBrowse
*.gff
Предсказанные гены в обычном .gff-формате (General Feature Format)
*.gtf
Предсказанные гены в .gtf-формате (.gff-формат 2-ой версии)
*.mrna
Предсказанные мРНК-транскрипты в формате fasta

Из-за высокой сложности предсказания генов в эукариотических организмах, а также вариабельности таких предсказаний, практически не имеет смысла выполнять операции сравнения, подобные тем, что были выполнены в практикуме по предсказанию генов прокариот. Поэтому для сравнения предсказания при помощи AUGUSTUS и аннотации попробуем посмотреть на таблицу, в которую внесены предсказания AUGUSTUS'а и аннотация. В результате:

  1. AUGUSTUS нашёл гораздо больше генов, чем есть в аннотации;
  2. AUGUSTUS часто разбивает на несколько генов гены, которые в аннотации объединены в один;
  3. Старт и конец генов в аннотации и в предсказании AUGUSTUS достаточно сильно разнятся, но нельзя сказать, что они вообще не похожи.
Ген из первого задания имеет в аннотации координаты 290391:300011 (-), в предсказании же его координаты — 298087:299616 (-). Может показаться, что разница огромная, но теперь посмотрим на CDS: в аннотации это 298307:299935 (-), в предсказании — 298307:299428 (-), и проблема снова та же, что и в случае с предсказанием генов прокариот, — С-конец белка предсказать гораздо проще, чем N-конец.