Предсказание генов эукариот

Главная страница
Предсказание генов X5 с помощью AUGUSTUS

Для определения организма X5 и предсказания генов был выбран scaffold-670 длиной 50106 нуклеотидов.
К контигу был применен blastx. В выдаче большое количество разных грибов, в том числе Schizosaccharomyces pombe. Этот организм присутствует в списке организмов, для которых уже произведено обучение AUGUSTUS, поэтому поиск проводился именно по нему.
Страница с результатом.

В архиве, полученном в результате работы программы, есть следующие файлы:

augustus.aa – аминокислотные последовательности продуктов генов

augustus.cdsexons – нуклеотидные последовательности экзонов

augustus.codingseq – кодирующие последовательности генов

augustus.gbrowse – информация о генах, мРНК-кодирующих фрагментах, интронах, старт- и стоп-кодонах (их местоположение)

augustus.gff – информация о генах, мРНК-кодирующих фрагментах, интронах, старт- и стоп-кодонах; кодирующие последовательности; последовательности продуктов

augustus.gtf – то же самое, что и augustus.gbrowse, только вместо mRNA transcript; возможно, эти файлы содержат одинаковую информацию, но для разных программ требуется разный формат записи

Всего для контига было найдено 25 белков.

Для проверки с помощью blast я выбрала пять самых длинных:

g1.t1


Для продукта первого гена найдена только одна достаточно хорошая находка: транспозаза из дрожжей Xanthophyllomyces dendrorhous. Транспозаза, являясь частью мобильного элемента, может вырезаться и встраиваться практически в любое место генома, так что не имеет смысла опираться на нее при анализе генома.

g8.t1


Концы находок совпадают, то есть они правильно определены. Этот белок высоко консервативен не только для всех грибов, но и для растений и животных. Вот, например поиск гомологов среди человеческих белков:



DNA replication licensing factor необходим для инициации репликации у всех эукариот; обладает хеликазной активностью.

g11.t1


У всех находок для этого белка спереди большой пустой промежуток. Это свидетельствует о том, что границы кодирующей области определены неверно. Консервативен для эукариот. Белок, по-видимому, принадлежит к хеликазам: функция – расплетание ДНК.

g19.t1


Картина точно такая же, как и в предыдущий раз. Гэп перед белком еще больше. NAD-dependent succinate-semialdehyde dehydrogenase – фермент консервативный для прокариот и эукариот, катализирует реакцию:
sukcinat semialdehid + NAD(P)+ +H2O = sukcinat + NAD(P)H + 2 H+

g24.t1


Концы определены правильно, белок высоко консервативен для эукариот, у прокариот есть гомологи. UDP-N-acetylglucosamine diphosphorylase катализирует реакцию:
UTP + N-acetyl-alpha-D-glucosamine 1-phosphate = diphosphate + UDP-N-acetyl-D-glucosamine

Сравнение аннотации Refseq и AUGUSTUS гена человека

Был выбран ген, кодирующий каспазу 6: CASP6, который расположен на 4 хромосоме, на обратной цепи.
Для анализа использовалась последняя сборка генома человека hg38 в UCSC Genome.








Тaблица.



Длина гена в Refseq 14845 и в AUGUSTUS 41356 нуклеотидов, это очень большая разница. Начинаются гены примерно одинаково (разница 9 нуклеотидов), а вот заканчивается ген в аннотации AUGUSTUS на 26502 нуклеотида дальше.

Refseq предлагает три варианта, которые отличаются количеством экзонов. В первом варианте больше всего экзонов: семь. Если смотреть по нему, то у второго есть экзоны 1, 2, 3 и 7, у третьего – 1, 2, 3, 5, 6, 7.

У аннотации AUGUSTUS с аннотацией Refseq совпадают только экзоны 3 и 4 (2 и 3 в Refseq).

Все экзоны кодируют белок, но у первых и последних есть некодирующие области.

Остаток от деления на 3 почти везде (кроме последнего варианта Refseq) равен 0.

Если строго соблюдать триплетность, то белковые продукты получатся разными по длине: 294 аминокислот в первом варианте Refseq и 339 в аннотации AUGUSTUS. UniProt утверждает, что каспаза 6 содержит 293 аминокислотных остатков.

© Широковских Татьяна