Учебный сайт Полины Байкузиной

Главная Семестры О себе Ссылки

Предсказание генов эукариот

Задание 1. Предсказание генов X5 с помощью AUGUSTUS.

Материал: контиг сборки X5 unplaced-950 (длина: 41249 п.н.).

Для предсказания генов был использован сайт AUGUSTUS (AUGUSTUS prediction submission). Затем нужно было выбрать самого близкого родственника из списка организмов, для которых уже было произведено обучение сервиса. Для этого я запустила blastx, который ищет формальные трансляции нашей нуклеотидной последовательности в 6 рамках против базы белков.

Рис.1. Результаты выдачи blastx.

Из результатов выдачи blastx я выбрала организм Saitoella complicata NRRL Y-17804 (Eukaryota; Fungi; Dikarya; Ascomycota; Taphrinomycotina; Taphrinomycotina incertae sedis; Saitoella), т.к. для организма Spizellomyces punctatus DAOM BR117 (Eukaryota; Fungi; Chytridiomycota; Chytridiomycetes; Spizellomycetales; Spizellomycetaceae; Spizellomyces) не был найден близкий родственник в списке организмов.

В качестве родственного организма я выбрала Schizosaccharomyces pombe из подотдела Taphrinomycotina. Остальные параметры были оставлены по умолчанию.

Адрес страницы с описанием статуса задания:

http://bioinf.uni-greifswald.de/webaugustus/prediction/show/0db58f8a5125334801512ff4596d0029

Результат предсказания - архив predictions.tar.gz. В архиве представлены файлы:

  • augustus.gff - предсказания генов в формате gff;
  • augustus.gtf - предсказания генов в формате gtf;
  • augustus.aa - предсказания генов в виде аминокислотных последовательностей в fasta-формате;
  • augustus.codingseq - предсказания генов в виде последовательностей CDS в fasta-формате;
  • augustus.cdexons - последовательности предсказанных экзонов в формате fasta;
  • augustus.gbrowse - информация о структурных элементах пре-мРНК, предшествующей каждому из предсказанных генов (предсказание геномного браузера GBrowse).

Проверка предсказания с помощью BLAST.

Программа предсказала 22 белок-кодирующих гена. Список предсказаных генов (таблица).

Для проверки экзон-интронной структуры я выбрала 5 генов: g9, g12, g13, g19, g20. Данные о предсказанной экзон-интронной структуре были взяты из файла augustus.gff. Данные для 5 выбранных белков представлены в табл.1.

Табл.1. Предсказание экзон-интронной структуры генов g9, g12, g13, g19, g20 c помощью ресурса AUGUSTUS.

Чтобы проверить экзон-интронную структуру, я использовала blastp (ищет входную последовательность белка в банке белков). Аминокислотные последовательности белков были взяты из файла augustus.aa.

g9

Для последовательности g9 я запустила blastp по банку Swiss-Prot, ограничив область поиска таксоном Fungi.

Рис.2. Результаты выдачи blastp по банку Swiss-Prot.

Лучшая находка принадлежит Schizosaccharomyces pombe 972h- (из подотдела Taphrinomycotina, что и исходный организм). У данного организма продукт подтвержден на уровне транскрипта. Также определена функция белка (цитоплазматический мотор, который может играть роль в рециркуляции мембраны аппарата Гольджи) (рис.3).

Рис.3. Фрагмент страницы в Swiss-Prot белка-продукта предсказанного гена g9.

В выравнивании находки (рис.4) с входной последовательностью предсказанного белка есть гэп. Почти в том же месте (с небольшим разбросом) был гэп и у других находок. Это может говорить о том, что AUGUSTUS неправильно определил границы экзона. Возможно, часть интрона была рассмотрена в качестве экзона и транслирована, поэтому с ней нет сходства во всех последовательностях.

Рис.4. Выравнивание лучшей находки с входной последовательностью предсказанного белка.

g12

Для последовательности g12 я также запустила blastp по банку Swiss-Prot и ограничила область поиска таксоном Fungi.

Рис.5. Результаты выдачи blastp по банку Swiss-Prot.

Продукт лучшей находки подтвержден на уровне белка, и определена функция данного белка (рис.6).

Рис.6. Фрагмент страницы в Swiss-Prot белка-продукта предсказанного гена g12.

Белок, контролирующий деление клеток, 48 участвует в разборке веретена деления, в деградации убиквитинированных белков и в экспорте белков из эндоплазматического ретикулума в цитоплазму. Действует как шаперон, который собирает убиквитинированные субстраты. Играет роль в расщеплении белка, связанное с эндоплазматическим ретикуломом. Компонент комплекса, контролирующего качество рибосом (RQC).

В выравнивании находки есть 2 крупных участка (рис.7). В обоих участках встречаются гэпы. У других находок гэпы встречаются в тех же позициях. Это говорит о том, что границы экзонов определены неправильно.

Рис.7. Выравнивание лучшей находки с входной последовательностью предсказанного белка.

g13

Поиск был произведен по Swiss-Prot (Fungi). Лучшая находка имеет Query over 97%. Продукт предсказан по гомологии. Функция белка не определена.

Рис.8. Результаты выдачи blastp по банку Swiss-Prot.

Рис.9. Фрагмент страницы в Swiss-Prot белка-продукта предсказанного гена g13.

В выравнивании находки есть 2 участка (рис.10), в которых также встречаются гэпы (процент гэпов меньше, чем в выравниваниях предыдущих генов), но у других находок гэпы встречаются примерно в тех же позициях. Из этого можно сделать вывод, что границы экзонов определены неправильно.

Рис.10. Выравнивание лучшей находки с входной последовательностью предсказанного белка.

g19

Для данной последовательности я также запустила blastp (поиск производился по банку Swiss-Prot). На рис.11 виден консервативный домен, который встречается почти во всех находках (длина и локализация в белке совпадают).

Рис.11. Результаты выдачи blastp по банку Swiss-Prot.

Продукт данной находки предсказан по гомологии. Опрделена функция белка: компонент комплекса NOP7, который необходим для созревания 25S и 5.8S рРНК и формирования рибосом 60S.

Рис.12. Фрагмент страницы в Swiss-Prot белка-продукта предсказанного гена g19.

Выравнивание лучшей находки представлено на рис.13. На нем показан один крупный участок. В выравниваниях других находок (рис.14) можно увидеть 2 участка (первый соответствует консервативному домену). Гэпы, найденные в 1 участке, у других находок встречаются в тех же позициях. Во 2 участке также есть гэпы. Это говорит о неправильном определении границ экзонов сервером AUGUSTUS.

Рис.13. Выравнивание лучшей находки с входной последовательностью предсказанного белка.

Рис.14. Выравнивание второй находки с входной последовательностью предсказанного белка.

g20

Для последовательности g20 также был запущен blastp (Swiss-Prot, Fungi). В результате было получено всего 3 находки (рис.15). Данные находки довольно плохие.

Рис.15. Результаты выдачи blastp по банку Swiss-Prot.

При запуске blastp по nr было получено довольно много находок (рис.16).

Рис.16. Результаты выдачи blastp по банку nr.

Из этих результатов видно что все находки представляют белок метилмалонил-CoA эпимераза. Достоверной информации о гомологии нет. Из выравнивания (рис.17) видно, что встречаются гэпы. Гэпы есть во всех находках, что говорит о неверном определении границ экзона.

Рис.17. Выравнивание лучшей находки с входной последовательностью предсказанного белка.

Задание 2. Сравнение аннотации Refseq и AUGUSTUS одного гена человека.

Для выполнения данного задания был выбран ген peptidylprolyl isomerase E (cyclophilin E) (PPIE, ID: 10450), который кодирует белок из семейства пептидилпролил-цис-транс-изомераз (PPIase). Эти белки катализируют цис-транс-изомеризацию пептидных связей олигопептидах и ускоряют фолдинг белков. Данный белок содержит высоко консервативный циклофилиновый домен, а также РНК-связывающий домен.

Координаты гена: хромосома 1, от 39738845 до 39763914 п.н. (в UCSC от 39738882 до 39753707), прямая цепь, длина: 25070 п.н. (в UCSC 14826 п.н.).

Для выполнения данного задания использовался UCSC Genome Browser. Далее я выбрала последнюю сборку генома человека (hg38) и нашла интересующий ген с помощью Genome Browser. Отрегулировав нижнее меню, оставила три трэка: base position, Refseq и AUGUSTUS.

Рис. 18. Скриншот страницы UCSC Genome Browser с двумя аннотациями гена PPIE.

Затем были получены предсказания экзон-интронной структуры, выполненные RefSeq и AUGUSTUS, в виде таблиц.

RefSeq выдал предсказания для 5 изоформ. Все они представлены (а так же результаты предсказания AUGUSTUS) в таблице в формате Excel.

Рис.19. Сводные таблицы интрон-экзонной структуры гена peptidylprolyl isomerase E (cyclophilin E) согласно предсказаниям Refseq (выделена голубым цветом) и AUGUSTUS (выделена зеленым цветом).

На рис.19 представлены сводные таблицы интрон-экзонной структуры гена самой полной изоформы (изоформы - белки, полученные альтернативным сплайсингом) для двух аннотаций. Как видно из рис.18 и 19, аннотации RefSeq и AUGUSTUS расходятся в описании некодирующих регионов первого экзона. Также можно заметить, что в аннотации Refseq есть некодирующий экзон, который входит в нетранслируемую область. Возможно, в связи с этим описания последних экзонов расходятся. Остальные данные идентичны.


© Полина Байкузина, 2014