Задание 1. 1. Предсказание генов с помощью AUGUSTUS
Для выполнения задания из генома X5 был выбран контиг unplaced-1071 длиной 86429bp.
Чтобы предсказать гены в нем, нужно либо обучить программу AUGUSTUS, либо использовать предсказание генов родственного организма, работать с которым вышеупомянутая программа уже работает.
Определить ближайшего родственника было решено при помощи алгоритма blastx. Среди откровенной каши из муравьев,
грибов, птиц, бактерий и людей в выдаче бласта наиболее часто мелькали представители царства Fungi, а среди них - Rhizopus microsporus.
Так как длина контига слишком большая, он бластовался 6 раз фрагментами из примерно 15 килобаз.
augustus.gbrowse содержит информацию о интронах, экзонах, начале и конце трансляции и пр. в формате, удобоваримом для GBrowse;
augustus.gff содержит информацию о найденных генах в виде таблицы;
augustus.gtf содержит информацию о найденных генах в виде таблицы, но без разделения на гены и без последовательностей.
2. Проверка предсказания с помощью BLAST
Были выбраны 5 генов: g5, g9, g12, g14, g15.
Для проверки проводился blastp с ограничением по таксонам (только царство Fungi). g5
Лучшие находки, и, видимо, гомологи нашего g5, являются глюкозо-6-фосфат дегидрогеназами разных грибов.
Этот белок - первый фермент в пентозофосфатном пути.
Катализируемая реакция:
D-глюкозо-6-фосфат + NADP+ ↔ D-глюконо-1,5-лактон-6-фосфат + NADPH.
Рис1. Выдача blastp последовательности предсказанного гена g5. Видно, что результаты довольно неплохие.
g9
blastp не дал результатов. Я, конечно, не растерялся и запустил нуклеотидный бласт
сиквенса CDS. Ситуация не шибко улучшилась, находки соответствуют очень коротким участкам митохондриальных геномов дрожжей.
Рис2а. С g9 не так повезло. Эх.
Рис2б. blastn тоже не смог найти хороших находок.
g12
Результаты blastp не слишком хороши, поэтому для уточнения был проведен и blastn CDS. К сожалению, он не сильно улучшил понимание ситуации,
потому что гены, что он нашел, соответствуют белкам совсем других организмов по сравнению с выдачей белкового
бласта. Однако хорошо, что эти бласты сошлись в том, что лучшие находки являются протеинкиназами.
Лучшая находка blastn (мРНК CAMKK/META протеинкиназы Ppk34) имеет неплохой Ident, но остальные показатели хромают.
AUGUSTUS справился с задачей предсказания гена не очень хорошо.
g14
blastp не смог найти никаких хоть сколько-нибудь подходящих белков. blastn выдал несколько находок,
но их E-value заставляют склониться к мнению, что AUGUSTUS промахнулся.
Рис4а. Бедолага g14 вряд ли существует, как утверждает blastp. Мда.
Рис4б. Результаты blastn не переубедили.
g15
Белковый бласт дал одну удовлетворительную находку и небольшое количество неудовлетворительных.
Действуем по старой схеме: бластуем нуклеотидные сиквенсы. E-value находок весьма большие и мы вынуждены с
некоторым огорчением отвергнуть гипотезу о том, что наш сервис справился.
Рис5а. Выдача blastp последовательности предсказанного гена g15. Одна находка более или менее похожа на гомолога, остальные плохие.
Задание 2. Таблица с экзоно-интронными структурами
Был выбран ген альдостеронсинтазы (CYP11B2), расположенный в локусе q24.3 человеческой хромосомы номер 8
(координаты: 142 910 559 - 142 917 843, "+" цепь). Белковый продукт гена катализирует три реакции:
11-бета-гидроксилирование 11-деоксикортикостерона до кортикостерона,
18-гидроксилирование кортикостерона до 18-гидроксикортикостерона,
18-оксидирование 18-гидроксикортикостерона до альдостерона.
Рис6. Сравнение аннотаций CYP11B2 в геномном браузере.
Как видно из рисунка, AUGUSTUS при аннотировании "зацепил" соседа - CYP11B1 (11-бета-гидроксилаза), из-за чего предсказанные им гены содержат
в себе гораздо больше экзонов, а также огромный интрон. При этом часть экзонов, присутствующих в аннотации RefSeq, пропущена.
У соседнего гена CYP11B1 есть две изоформы, что AUGUSTUS также не учел.
Описания экзоно-интронных структур - в таблице, ссылка на которую дана выше.