Предсказание генов эукариот

Описание выданного контига и одного из генов на нем, для которого предсказан альтернативный сплайсинг

Выданный мне контиг NW_001843865 состоит из 505340 пар нуклеотидов (число генов, как и CDS 40) и принадлежит Хламидомонаде Рейнгардта.
Chlamydomonas reinhardtii — это подвижная одноклеточная зелёная водоросль, представитель рода хламидомонада (Chlamydomonas). Эти водоросли широко распространены в почве и пресной воде. Диаметр клетки около 10 микрометров, плавает при помощи двух одинаковых (равных) жгутиков, расположенных на суженном переднем конце. Возле основания жгутиков имеются две небольшие сократительные вакуоли. Основной компонент клеточной стенки — гликопротеины, богатые гидроксипролином. В клеточной стенке также присутствует растворимая фракция моносахаридов и олигосахаридов. Вопреки данным ранних работ, целлюлоза в ней отсутствует. Хлоропласт крупный, чашеобразный, содержит крупный пиреноид и светочувствительный глазок (стигму). Обычные (немутантные) штаммы Chlamydomonas могут расти на простой культуральной среде, содержащей неорганические соли, на свету используя фотосинтез для обеспечения клетки энергией. Также могут расти в полной темноте, используя в качестве источника углерода ацетат. С. reinhardtii, так же как и другие представители рода Chlamydomonas, имеет сложный жизненный цикл. Гаплоидные вегетативные клетки размножаются митозом. В условиях недостатка питательных веществ (например, азота) они многократно делятся митозом, образуя половые клетки — гаметы. Затем разнородные гаметы попарно сливаются, образуя диплоидные зиготы. Зигота окружена плотной клеточной стенкой, что позволяет пережить неблагоприятное время. При наступлении благоприятных для жизни условий зитога делится мейозом на 4 гаплоидные вегетативные клетки. [1]
Таксономия организма: Eukaryota; Viridiplantae; Chlorophyta; Chlorophyceae; Chlamydomonadales; Chlamydomonadaceae; Chlamydomonas [2]

Chlamydomonas reinhardtii[1]

В данном контиге не было генов с альтернативным сплайсингом, поэтому я взяла ген PRPL3. с координатами complement(164347..167937), длинной 3590. Для него известен один вариант mRNA и соответсвующий вариант белка. Это рибосомальный белок хлоропласта L3. У mRNA идентификатор XP_001700690.1 (длина - 259аа), а у белка идентификатор XP_002785455.1 (длина - 130аа)

Изображение гена PRPL3 в геномнои браузере

Изображение белка PRPL3

Предсказание генов и белок-кодирующих областей в выданном контиге

Далее для выданного мне контига были предсказаны гены и белок-кодирующие области с помощью сервера AUGUSTUS в режиме prediction.
Параметры запуска представлены ниже:

    Пояснинения:
  1. AUGUSTUS paremeter project identifier - указание организма, из генома которого будут браться параметры модели для работы программы. Можно загрузить геном в виде архива, ввести идентификатор проекта по сборке генома или указать организм из предложенного списка. Я выбрала из предложенного списка организм Chlamydomonas reinhardtii, т.к. из его генома и брался контиг.
  2. Prediction job ID - идентификатор запроса о предсказании генов.
  3. Genome file - вводится файл с одной или несколькими последовательностями ДНК, для которых надо предсказать гены.
  4. Report genes on - программа может искать гены на обеих цепях ДНК (both strands), только на прямой цепи (forward strand only) или только на комплементарной цепи (reverse strand only). По умолчанию выбраны обе цепи.
  5. Alternative transcripts - программа может на выходе давать разное количество возможных альтернативных транскриптов (few, medium, many) или одному гену сопоставлять один транскрипт (none). Так как в моём скэффолде не было генов, кодирующих изоморфы, то для ускорения работы программы я выбрала "none".
  6. User set UTR prediction - можно попросить программу также предсказывать области UTR, тогда напротив этого поля будет написано "true". По умолчанию стоит "false".
  7. Allowed gene structure - в связи с тем, что подающаяся на вход последовательность не всегда может содержать целое количество генов, программа опционно может предсказывать только целые гены (predict only complete genes) или по крайней мере один целый ген, если это возможно (predict only complete genes - at least one). Также программа может предсказать только один целый ген (predict exactly one complete gene).
  8. Ignore conflictes with other strand - параметр, опционно учитывающий перекрывание генов на двух цепях. По умолчанию не учитывает.

После завершения работы сервис выдает архив с результатами, представляющий собой набор файлов вида augustus.xxx (где xxx - aa, cdsexons, codingseq, gbrowse, gff, gtf). Подробнее в таблице ниже.

augustus.aaФайл с аминокислотными последовательностями, транслированными из предсказанных генов (формат fasta)
augustus.cdsexonsФайл с последовательностями экзонов предсказанных генов (формат fasta)
augustus.codingseqФайл с CDS (формат fasta)
augustus.gbrowseФайл с информацией о координатах, ориентации, структурных особенностях и т.д. pre-mRNA предсказанных генов для геномного браузера
augustus.gffФайл со всей информацией: нуклеотидная, аминокислотная последовательности, координаты, ориентация (формат gff)
augustus.gtfФайл с предсказанными генами в формате .gtf

Далее, чтобы сравнить результаты предсказания AUGUSTUS с реальными, я получила файлы с координатами и ориентацией генов с помощью скриптов на языке python: из файла augustus.gbrowse скриптом aug_to_txt.py - augustus.txt; из файла contig.gff (который я предварительно перевела из файла формата gb, скачанного с NCBI, командой featcopy пакета EMBOSS) скриптом contig_to_txt.py - contig.txt
Затем скриптом comp.py были сравнены txt-файлы, полученные ранее.

Результат сравнения предсказания AUGUSTUS с реальными генами

Судя по результатам, AUGUSTUS сработал крайне плохо: не угадан полностью ни один ген, 15 генов из 40 угаданы частично: ошибка на N- или С- конце. Все остальные (62,5%) есть в скэффолде, но предсказаны не были.

[1]. Хламидомонада Рейнгардта on Wikipedia
[2]. NCBI Taxonomy
[2]. AUGUSTUS

Назад
На главную



© Кучеренко Варвара 2015