Предсказание генов эукариот

1. Предсказание генов X5 с помощью AUGUSTUS

Выбор контига


Мне показалось утомительным логиниться на сервер, запускать инфосек или секрет, поэтому я просто открыла X5.fasta в notepad++, вышла к середине файла и выделением, копированием и вставкой сделала себе скэффолд 489 (выделение текста показало 26929 символов) в качестве исследуемой последовательности. Длина последовательности составила 26929(символов всего)-441(символов конца строки)=26488 нк. scaf489.fasta

Выбор образца для подражания


Образец должен подходить по составу кодируемых белков с учётом того, что организм у нас эукариотический, а, значит, исходная последовательность содержит интроны. BLASTX умеет производить поиск с учётом интронных вставок, поэтому используем его. Результаты выравнивания:


Лучшие места заняли представители рода Rhyzopus, по счастью, представитель этого же рода - Rhizopus oryzae (в хелпе сайта AUGUSTUS очепятка, он там Phizopus oryzae) - нашёлся в качестве эталона на AUGUSTUS.

Работа с AUGUSTUS


Заявка на предсказание подана со следующими параметрами:
  • AUGUSTUS species parameters: в выпадающем списке задан Phizopus oryzae
  • Report genes on: both strands
  • Alternative transcripts: only predict complete genes
  • Allowed gene structure: only predict complete genes, с галочкой в ignore conflicts with other strand

Заявка удовлетворена файлом predictions.tar.gz - архивом со следующей структурой:

Проверка 5 предсказаний с помощью blastp


  1. g1.t1: 4 экзона, кодирует N-концевую нуклеофильную аминогидролазу.

  2. g2.t1: 2 экзона, кодирует фактор инициации трансляции SUI1

  3. g3.t1: 2 экзона, кодирует белок 60s-рибосомы

  4. g4.t1: 2 экзона, однако гомологов найдено не было, следовательно, либо белка не существует, либо предсказание неверное.

  5. g5.t1: 1 экзон, кодирует N-ацетилглюкозамин 1-фосфат-трансферазу, однако у большинства найденных гомологов в статусе PREDICTED, хотя попадаются и проверенные.


2. Сравнение аннотаций RefSeq и Augustus


Для сравнения был выбран ген tet1, отвечающий за деметилирование 5-цитозин-метилированной ДНК. Роль белка в организме человека множественная: помимо очевидного участия в опухолевых процессах (засчёт деметилирования онкогенов или деметилирования их супрессоров) также замечен в формировании памяти (замещения старых воспоминаний новыми, болезнь Альцгеймера и т.п.), и дедифференциации клеток (вплоть до превращения в стволовые) (статья Hydroxylation of 5-methylcytosine by TET1 promotes active DNA demethylation in the adult brain . Tet1 расположен на 10ой хромосоме, но локус в зависимости от сборки разный: предыдущая сборка генома человека, №37, содержит его с 70320116 по 70454238 нуклеотид:результат поиска на GenAtlas. Текущая сборка, №38 - с 68560360 по 68694487 нуклеотид: результат поиска в NCBI .
В геномном браузере на сайте UCSC после выбора hide во всех выпадающих списках, кроме base position (секция Mapping and Sequencing),RefSeq Genes и augustus (секция Genes and Gene Predictions) ген tet1 выглядит так:

Для получения информации об аннотациях в RefSeq и AUGUSTUS воспользовалась Tools -> Table browser (полоска меню сверху сайта), где указала вручную (остальное - по умолчанию) параметры:
  • position: chr10:68560360-68694487
  • track: RefSeg genes (или augustus для augustus-аннотации соответственно)
  • output format: selected fields from primary and related table
и скопировала выданные по кнопке get output результаты в текстовый файл с дальнейшим размещением и обработкой в excel-файле (лежит здесь)
После обработки (разнесения данных по столбцам, транспонирования,вычисления длин экзонов и интронов) получилась следующая картина: Augustus выделил 28 экзонов, из них только 8 совпали с выделенными RefSeq'ом (помечены тёмно-рыжим). RefSeq нашёл 12 экзонов. В обеих аннотациях разные координаты начала и конца гена. Суммарные длины интронов и экзонов относятся как 221453:9140 у augustus и 124550:9596 у refseq, то есть ген у Августуса вышел в 1,72 раза длиннее и с вдвое большим соотношением длин интронов к длинам экзонов (24,23 против ~12)



Картинка в геномном браузере с границами видимости, установленными по augustus (ранее были по RefSeq):