|
Предсказание генов X5 с помощью AUGUSTUS Для определения организма X5 и предсказания генов был выбран scaffold-670 длиной 50106 нуклеотидов. К контигу был применен blastx. В выдаче большое количество разных грибов, в том числе Schizosaccharomyces pombe. Этот организм присутствует в списке организмов, для которых уже произведено обучение AUGUSTUS, поэтому поиск проводился именно по нему. Страница с результатом. В архиве, полученном в результате работы программы, есть следующие файлы: augustus.aa – аминокислотные последовательности продуктов генов augustus.cdsexons – нуклеотидные последовательности экзонов augustus.codingseq – кодирующие последовательности генов augustus.gbrowse – информация о генах, мРНК-кодирующих фрагментах, интронах, старт- и стоп-кодонах (их местоположение) augustus.gff – информация о генах, мРНК-кодирующих фрагментах, интронах, старт- и стоп-кодонах; кодирующие последовательности; последовательности продуктов augustus.gtf – то же самое, что и augustus.gbrowse, только вместо mRNA transcript; возможно, эти файлы содержат одинаковую информацию, но для разных программ требуется разный формат записи Всего для контига было найдено 25 белков. Для проверки с помощью blast я выбрала пять самых длинных: g1.t1 ![]() Для продукта первого гена найдена только одна достаточно хорошая находка: транспозаза из дрожжей Xanthophyllomyces dendrorhous. Транспозаза, являясь частью мобильного элемента, может вырезаться и встраиваться практически в любое место генома, так что не имеет смысла опираться на нее при анализе генома. g8.t1 ![]() Концы находок совпадают, то есть они правильно определены. Этот белок высоко консервативен не только для всех грибов, но и для растений и животных. Вот, например поиск гомологов среди человеческих белков: ![]() DNA replication licensing factor необходим для инициации репликации у всех эукариот; обладает хеликазной активностью. g11.t1 ![]() У всех находок для этого белка спереди большой пустой промежуток. Это свидетельствует о том, что границы кодирующей области определены неверно. Консервативен для эукариот. Белок, по-видимому, принадлежит к хеликазам: функция – расплетание ДНК. g19.t1 ![]() Картина точно такая же, как и в предыдущий раз. Гэп перед белком еще больше. NAD-dependent succinate-semialdehyde dehydrogenase – фермент консервативный для прокариот и эукариот, катализирует реакцию: sukcinat semialdehid + NAD(P)+ +H2O = sukcinat + NAD(P)H + 2 H+ g24.t1 ![]() Концы определены правильно, белок высоко консервативен для эукариот, у прокариот есть гомологи. UDP-N-acetylglucosamine diphosphorylase катализирует реакцию: UTP + N-acetyl-alpha-D-glucosamine 1-phosphate = diphosphate + UDP-N-acetyl-D-glucosamine Сравнение аннотации Refseq и AUGUSTUS гена человека Был выбран ген, кодирующий каспазу 6: CASP6, который расположен на 4 хромосоме, на обратной цепи. Для анализа использовалась последняя сборка генома человека hg38 в UCSC Genome. ![]() ![]() Тaблица. Длина гена в Refseq 14845 и в AUGUSTUS 41356 нуклеотидов, это очень большая разница. Начинаются гены примерно одинаково (разница 9 нуклеотидов), а вот заканчивается ген в аннотации AUGUSTUS на 26502 нуклеотида дальше. Refseq предлагает три варианта, которые отличаются количеством экзонов. В первом варианте больше всего экзонов: семь. Если смотреть по нему, то у второго есть экзоны 1, 2, 3 и 7, у третьего – 1, 2, 3, 5, 6, 7. У аннотации AUGUSTUS с аннотацией Refseq совпадают только экзоны 3 и 4 (2 и 3 в Refseq). Все экзоны кодируют белок, но у первых и последних есть некодирующие области. Остаток от деления на 3 почти везде (кроме последнего варианта Refseq) равен 0. Если строго соблюдать триплетность, то белковые продукты получатся разными по длине: 294 аминокислот в первом варианте Refseq и 339 в аннотации AUGUSTUS. UniProt утверждает, что каспаза 6 содержит 293 аминокислотных остатков. |