Предсказание генов эукариот

Задание 1.
1. Предсказание генов с помощью AUGUSTUS
Для выполнения задания из генома X5 был выбран контиг unplaced-1071 длиной 86429bp.
Чтобы предсказать гены в нем, нужно либо обучить программу AUGUSTUS, либо использовать предсказание генов родственного организма, работать с которым вышеупомянутая программа уже работает. Определить ближайшего родственника было решено при помощи алгоритма blastx. Среди откровенной каши из муравьев, грибов, птиц, бактерий и людей в выдаче бласта наиболее часто мелькали представители царства Fungi, а среди них - Rhizopus microsporus. Так как длина контига слишком большая, он бластовался 6 раз фрагментами из примерно 15 килобаз.

Рис1. Лучшие находки 6 выдач бласта (разные запуски blastx отделены красными линиями).

Ближайшим родственником из таблицы организмов является Rhizopus oryzae.
Он и был использован для предсказания генов в выбранном контиге Х5.
Страница с результатом.
Полученный архив.
  • augustus.aa содержит аминокислотные последовательности предсказанных генов. В моем случае таких 32 шт.;
  • augustus.cdsexones содержит нуклеотидные последовательности экзонов каждого гена;
  • augustus.codingseq содержит сиквенсы полных CDS'ов;
  • augustus.gbrowse содержит информацию о интронах, экзонах, начале и конце трансляции и пр. в формате, удобоваримом для GBrowse;
  • augustus.gff содержит информацию о найденных генах в виде таблицы;
  • augustus.gtf содержит информацию о найденных генах в виде таблицы, но без разделения на гены и без последовательностей.
  • 2. Проверка предсказания с помощью BLAST
    Были выбраны 5 генов: g5, g9, g12, g14, g15.
    Для проверки проводился blastp с ограничением по таксонам (только царство Fungi).
    g5
    Лучшие находки, и, видимо, гомологи нашего g5, являются глюкозо-6-фосфат дегидрогеназами разных грибов.
    Этот белок - первый фермент в пентозофосфатном пути.
    Катализируемая реакция:
    D-глюкозо-6-фосфат + NADP+ ↔ D-глюконо-1,5-лактон-6-фосфат + NADPH.

    Рис1. Выдача blastp последовательности предсказанного гена g5. Видно, что результаты довольно неплохие.

    g9
    blastp не дал результатов. Я, конечно, не растерялся и запустил нуклеотидный бласт сиквенса CDS. Ситуация не шибко улучшилась, находки соответствуют очень коротким участкам митохондриальных геномов дрожжей.

    Рис2а. С g9 не так повезло. Эх.


    Рис2б. blastn тоже не смог найти хороших находок.

    g12
    Результаты blastp не слишком хороши, поэтому для уточнения был проведен и blastn CDS. К сожалению, он не сильно улучшил понимание ситуации, потому что гены, что он нашел, соответствуют белкам совсем других организмов по сравнению с выдачей белкового бласта. Однако хорошо, что эти бласты сошлись в том, что лучшие находки являются протеинкиназами. Лучшая находка blastn (мРНК CAMKK/META протеинкиназы Ppk34) имеет неплохой Ident, но остальные показатели хромают. AUGUSTUS справился с задачей предсказания гена не очень хорошо.

    Рис3а. Выдача blastp последовательности предсказанного гена g12. Показатели средние.


    Рис3б. Выдача blastn последовательности CDS предсказанного гена g12.

    g14
    blastp не смог найти никаких хоть сколько-нибудь подходящих белков. blastn выдал несколько находок, но их E-value заставляют склониться к мнению, что AUGUSTUS промахнулся.

    Рис4а. Бедолага g14 вряд ли существует, как утверждает blastp. Мда.


    Рис4б. Результаты blastn не переубедили.

    g15
    Белковый бласт дал одну удовлетворительную находку и небольшое количество неудовлетворительных. Действуем по старой схеме: бластуем нуклеотидные сиквенсы. E-value находок весьма большие и мы вынуждены с некоторым огорчением отвергнуть гипотезу о том, что наш сервис справился.

    Рис5а. Выдача blastp последовательности предсказанного гена g15. Одна находка более или менее похожа на гомолога, остальные плохие.


    Рис5б. Выдача blastn последовательности CDS предсказанного гена g15. Результат, на мой вгляд, плачевный.


    Задание 2.
    Таблица с экзоно-интронными структурами
    Был выбран ген альдостеронсинтазы (CYP11B2), расположенный в локусе q24.3 человеческой хромосомы номер 8 (координаты: 142 910 559 - 142 917 843, "+" цепь). Белковый продукт гена катализирует три реакции:
  • 11-бета-гидроксилирование 11-деоксикортикостерона до кортикостерона,
  • 18-гидроксилирование кортикостерона до 18-гидроксикортикостерона,
  • 18-оксидирование 18-гидроксикортикостерона до альдостерона.

  • Рис6. Сравнение аннотаций CYP11B2 в геномном браузере.

    Как видно из рисунка, AUGUSTUS при аннотировании "зацепил" соседа - CYP11B1 (11-бета-гидроксилаза), из-за чего предсказанные им гены содержат в себе гораздо больше экзонов, а также огромный интрон. При этом часть экзонов, присутствующих в аннотации RefSeq, пропущена. У соседнего гена CYP11B1 есть две изоформы, что AUGUSTUS также не учел. Описания экзоно-интронных структур - в таблице, ссылка на которую дана выше.

    Назад к странице третьего семестра.


    © Aleksei Efremov, 2015