Предсказание генов эукариот

Задание 1. Предсказание генов X5 c помощью AUGUSTUS.
Для предсказания генов я выбрала запись unplaced_628.fasta из сборки генома X5(с помощью infoseq я посмотрела длины контигов, этот содержит 26327 нуклеотидов). Чтобы запустить AUGUSTUS, необходимо было выбрать "наиболее сходный" с данным контигом вид из списка организмов, на которых уже произведено обучение сервиса. Поэтому я запустила blast с алгоритмом blastx и определила, с продуктами генов каких организмов наиболее сходны продукты генов моего контига. Смотреть стоило именно по белкам, так как последовательности белков более консервативны, чем нуклеотидные, и в моем контиге могут быть некодирующие участки, последовательности которых сильно варьируются. Поиск бласт выдал много гипотетических и предсказанных белков растений, из подтвержденных был белок vacuolar serine protease Isp6 из Schizosaccharomyces japonicus.

Рис.1 Выдача blastx
Я испытывала некоторые сомнения, и поэтому запустила еще и алгорим blastn. Он выдал наибольшее сходство с последовательностью Schizosaccharomyces octosporus yFS286 vacuolar serine protease Isp6.

Рис.2 Выдача blastn
Поэтому я использовала Schizosaccharomyces pombe для работы с AUGUSTUS.

Архив с результатом работы программы содержал 5 файлов:
1)augustus.aa - аминокислотные последовательности белков, полученные с найденных генов(в моем случае 16)
2)augustus.cdsexons - нуклеотидные последовательности экзонов
3)augustus.codingseq - полные транслируемые последоваетльности
4)augustus.gbrowse - информация о найденных генах и участких структуры в формате, воспринимаемом геномным браузером GBrowse
5)augustus.gff - предсказание генов в виде таблицы. Даны координаты разных участков генов(экзонов и интронов, старт- и стопкодонов), последовательности гена и его продукта.
5)augustus.gtf - вся та же информация, только в виде единой табдицы и без последовательностей
В табличку excel я собрала данные об экзон-интронной структуре генов(ее html вариант)

Проверка предсказаний с помощью blastp
Для проверки предсказания я выбрала пять генов: g1, g2, g3, g4, g5. Поиск blastp я ограничивала таксоном Fungi.
G1: поиск алгоритмом blastp выдал достаточно большое сходство с той самой сериновой протеазой Schizosaccharomyces japonicus, по которой я определяла организм для настроек:

Рис.3 Лучшая находка по гену g1
Низкое e-value, query cover 88% и ident 40% - параметры для белкового выравнивания неплохие. Посмотрим на само выравнивание.

Рис.4 Выравнивание с лучшей находкой
Видно, что в первой строчке содержится длинная гэповая область, и номера первых аминокислот отлтчаются почти на 100. Из этого можно заключить, что, хотя в целом ген предсказан верно, возможна ошибка в предсказании экзонов(augustus предсказал 2, а на ncbi указан только 1).
G2: результат поиска гомологов этого белка стал для меня неожиданностью, наилучшей находкой опять оказалась эта сериновая протеаза.

Рис.5 Лучшая находка по гену g2
Возможность подобной находки объяснятеся тем, что g1 находится на обратной цепи, а g2 на прямой. E-value тут выше, чем для g1, но выравнивания не содержат гэпов.

С экзон-интронной структурой AUGUSTUS ошибся - выдал 3 экзона, а на самом деле в этом гене сериновой протеазы экзон только один.
G3: находки blast по этому гену были хуже предыдущих, но все равно приемлемые. Лучшая - целлюлаза или экспансин у Rasamsonia emersonii. Предсказание гена можно засчитать, количество предсказанных экзонов совпадает с указанным в Gene.

G4: g4 - самый короткий из выбранных мною для проверки генов. Для него E-value лучшей находки был 6е-16, довольно высокое значение. Query cover - 47%. Сама лучшая находка - субъединица процессомного комплекса, участвующая в формировании 18S рРНК у Lachancea lanzarotensis. Находку засчитываю, в базе Gene данных о экзон-интронной структуре не нашла.
G5: с g5 AUGUSTUS, похоже, ошибся. В выдаче присутствовали только гипотетические белки, только у двух лучших находок e-value был меньше 0.001. Query cover лучшей находки был 28.

Поэтому делаю вывод, что достоверных гомологов у этого гена нет.
Таблица 1. Итоги проверки предсказания

Предсказанный ген	Достоверные гомологи продукта	Организм и его таксономия
g1	vacuolar serine protease Isp6	Таксономия Schizosaccharomyces japonicus yFS275
g2	vacuolar serine protease Isp6	Таксономия Schizosaccharomyces japonicus yFS275
g3	cellulase/expansin	Таксономия Rasamsonia emersonii
g4	LALA0S05e08416g1	Таксономия Lachancea lanzarotensis
g5	-	-

Задание 2. Сравнение аннотаций Refseq и AUGUSTUS одного гена человека
Для сравнения аннотаций я выбрала относительно короткий ген щелочной фосфатазы ALPL. Он закодирован в первой хромосоме, на участке с 21508982 по 21578412 нуклеотиды, на прямой цепи.

Скриншот окна геномного браузера
Сравнение аннотаций привожу в таблице excel. Видно, что AUGUSTUS плохо справился с предсказанием экзон-интронной структуры данного гена, он выделил в три раза больше экзонов, чем содержится в аннотации refSeq.