Предсказание генов эукариот

Задание 1

Из сборки генома X5 был выбран скэффолд 497, имеющий длину 71248 п.о.
Для предсказания генов были взяты параметры для Homo sapiens, так как blast показал, что большее сходство данный скэффолд имеет с геном из обезьяны. В качестве подтверждения - скриншоты выдачи blastx (поиск по базе SwissProt).

Гены предсказывались с помощью сервера AUGUSTUS. Результат работы AUGUSTUS включает 6 файлов:

Предсказанные гены представлены в excel-таблице: ссылка. Всего найдено 9 генов, из которых 3 не имеют интронов.

Для всех генов было проверено, есть ли у него достоверные гомологи. Был использован blastp, сравнивались последовательности белков. У 6 генов найдены достоверные гомологи (достоверной считалась находка с e-value < 0.001).
Ген 2 выделен не полностью. Гомологичный белок длиннее, AUGUSTUS не нашел несколько экзонов в начале гена. Находка для гена 3 имеет достаточно большое e-value и не очень большое сходство с искомым белком. Можно считать, что она ошибочна. Гомологичный белок для гена 4 очень длинный и состоит из повторяющихся участков, поэтому судить об интрон-экзонной структуре сложно. Продукт гена 7 имеет очень высокое сходство с участком рибосомального белка. Это значит, что правильно предсказано несколько экзонов, расположенных примерно в середине найденного гена. То же самое можно сказать и про ген 9. Небольшой участок продукта предсказанного гена имеет высокое сходство с реальным белком. Правильно предсказан первый экзон.

Задание 2

Был выбран ген ADCY6, кодирующий аденилатциклазу человека. Этот фермент осуществляет превращение АТФ в цАМФ.
Ген расположен на 12 хромосоме человека, координаты: 48,766,191-48,789,096. Ген имеет длину 17,801 п.о. Закодирован на (-)-цепи.
На рисунке 1 показано окно геномного браузера UCSC с аннотациями данного гена RefSeq и AUGUSTUS.

Рисунок 1. Ген ADCY6. Указаны аннотации RefSeq и AUGUSTUS. Изображение получено с помощью геномного браузера UCSC.

В таблице представлено описание аннотаций данного гена из RefSeq и AUGUSTUS: ссылка. По данным RefSeq у данного гена 22 экзона, по данным AUGUSTUS - 20 экзонов.
AUGUSTUS в целом правильно предсказал экзон-интронную структуру. Неточно указаны границы гена, найден 1 лишний экзон (второй), но не найдено 3 экзона в середине гена. Все остальные экзоны определены верно.

© Батырша Бостанов