I
Выданный контиг NW_011048400 длиной 600543 пар оснований принадлежит Beta vulgaris, или Свёкле обыкновенной (таксономическое положение: Eukaryota; Viridiplantae; Embryophyta; Magnoliophyta; Caryophyllales; Chenopodiaceae; Betoideae; Beta; Beta vulgaris). В контиге 35 генов и 40 CDS. В данном контиге присутствует ген, для которого обнаружен альтернативный сплайсинг.
![](data/as.png)
Вообще говоря, по всей видимости, это ошибка аннотации, потому что на изображении видно, что внутри интрона располагаются другие гены, а такое встречается достаточно редко. Причём несмотря на различия в изоформах мРНК (обозначены синим), последовательности белков (обозначены красным) не различаются.
II
Далее при помощи сервиса AUGUSTUS на данном скэффолде были предсказаны гены. Запуск сервиса был произведён со следующими параметрами:
Prediction job ID: predZiJ_AfQW AUGUSTUS parameter project identifier: arabidopsis Genome file: bv.fasta User set UTR prediction: true Report genes on: both strands Alternative transcripts: few Allowed gene structure: predict any number of (possibly partial) genes Ignore conflictes with other strand: false
В качестве модели был взят арабидопсис из-за его хорошей изученности (Резуховидка Таля — хороший модельный организм), а также филогенетической близости (это тоже двудольное растение). В качестве дополнительных параметров был предложен поиск нетранслируемых областей мРНК (UTR), а также нескольких альтернативных форм транскриптов. Поиск генов производился на обеих цепях. После выполнения поиска генов AUGUSTUS выдал архив со следующими файлами внутри:
Расширение | Содержание |
*.aa | Предсказанные гены в виде fasta-последовательности белков |
*.cdsexons | Предсказанные экзоны в fasta-последовательности ДНК |
*.codingseq | Предсказанные гены в виде fasta-последовательности кодирующих участков ДНК |
*.gbrowse | Трэк-файл предсказания для GBrowse |
*.gff | Предсказанные гены в обычном .gff-формате (General Feature Format) |
*.gtf | Предсказанные гены в .gtf-формате (.gff-формат 2-ой версии) |
*.mrna | Предсказанные мРНК-транскрипты в формате fasta |
Из-за высокой сложности предсказания генов в эукариотических организмах, а также вариабельности таких предсказаний, практически не имеет смысла выполнять операции сравнения, подобные тем, что были выполнены в практикуме по предсказанию генов прокариот. Поэтому для сравнения предсказания при помощи AUGUSTUS и аннотации попробуем посмотреть на таблицу, в которую внесены предсказания AUGUSTUS'а и аннотация. В результате:
- AUGUSTUS нашёл гораздо больше генов, чем есть в аннотации;
- AUGUSTUS часто разбивает на несколько генов гены, которые в аннотации объединены в один;
- Старт и конец генов в аннотации и в предсказании AUGUSTUS достаточно сильно разнятся, но нельзя сказать, что они вообще не похожи.