|
||||||
Предсказание генов X5 с помощью AUGUSTUS В задании требовалось предсказать гены в одном из скэффолдов сборки генома Х5. Для поиска подходящего скэффолда я с помощью команды seqretsplit разбила X5.fasta на множество файлов-скэффолдов (рисунок 1) и выбрала себе один на основании размера, остальные удалила. Результат: scaffold-262.fasta, длина 48647 нуклеотидов (узнала с помощью infoseq - рисунок 2). Рис. 1. Команда seqretsplit Рис. 2. Команда infoseq Далее нужно было выбрать организм-эталон из списка таковых для работы AUGUSTUS. Для этого я запустила по скэффолду BLAST, a точнее blastx - транслирует последовательность в шести рамках и использует результаты для поиска похожестей. Хорошо то, что такой подход учитывает интроны. Результат на рисунке 3. Рис. 3. Выдача BLAST по последовательности скэффолда По счастью две из трех лучших находок принадлежат роду Rhizopus, представитель которого есть в эталонах - Rhizopus oryzae. Его и выберу. Поля, кроме организма-эталона и файла с самой последовательностью, остались по умолчанию. Страница задания. В итоге выдача алгоритма составила шесть файлов:
Проверка предсказаний Судя по augustus.aa, в скэффолде было предсказано 18 белок-кодирующих генов, для проверки я случайно выбала g5, g6, g8, g11 и g16.
Много хороших похожих находок (доказательство - рисунок 4), многие из которых относятся к одному и тому же белку - цистеин-протеиназе, поэтому возможно, что g5 имеет к ней отношение. Однако выравнивания находок начинаются не с начала белка, а на несколько сот нуклеотидов позже начала. Типичное выравнивание на рисунке 5. Делаю вывод, что была близко к истине предсказана экзон-интронная структура, но неверно определены координаты начала. Рис. 4. Резюме выдачи blastp на g5 Рис. 5. Типичное выравнивание g5 и находки
Тоже много хороших находок (на рисунке 6). Да и координаты начала, в отличие от предыдущего случая, похоже, определены верно (на рисунке 7 типичное выравнивание с более-менее совпадающими номерами остатков). О функции g6 тоже можно судить - белок cdc4, скорее всего. AUGUSTUS сработал на ура. Рис. 6. Резюме выдачи blastp на g6 Рис. 7. Типичное выравнивание g6 и находки
"No significant similarity found." - BLAST ничего не нашел. Значит, белок-кодирующий ген был предсказан неверно.
BLAST выдал один недостоверный результат (рисунок 8). Видимо, этот соответствующий g11 ген тоже был неверно предсказан. Рис. 8. Выдача BLAST по последовательности g11
Странный результат. Вроде бы находок много, но они плохи. Но и плохи как-то одинаково (рисунок 9). Выравнивания все не хорошие, но похожи и относятся в подавляющем большинстве к белку Daam2 (одно на рисунке 10). Скорее всего, AUGUSTUS правильно предсказал ген, но ошибся и с началом, и с экзон-интронной структурой. Рис. 9. Резюме выдачи blastp на g16 Рис. 10. Типичное выравнивание g16 и находки Сравнение аннотации RefSeq и AUGUSTUS гена человека Для работы был выбран pax9 - ген, важный в эмбриогенезе. Влияет на развитие многих органов - например, зубов. Этот ген я нашла в браузере UCSC, в частности, в последней сборке генома h38. В выдаче оставила только три трэка: base position, Refseq и AUGUSTUS, результат можно видеть на рисунке 11. Рис. 11. Аннотации pax9, полученные с помощью UCSC Genome Browser Судя по UCSC, ген находится в 14-ой хромосоме, координаты: 36657568-36677804, соотсетственно, длина: 20237 п.о., на прямой цепи. С помощью Tools => Table Browser я получила таблицу, следуя указаниям в задании (конечно, кое-как обработав данные руками). Результат не впечатляет. Если постулировать истинность аннотации RefSeq, то AUGUSTUS ошибся сильно: верно определил только 2 из 5 экзонов (но к чести AUGUSTUS - определил абсолютно верно), длину самого гена предсказал в 3 раза больше истинной. |
||||||
|