Предсказание генов эукариот

* Не нашла гены, для которых предсказан альтернативный сплайсинг в выданном контиге – беру резервный.

Информация о контиге NW_003724208

Контиг NW_003724208 принадлежит организму Vitis vinifera . Такое красивое латинское название имеет хорошо знакомый всем культурный виноград. wiki

Таксономия: Цветковое растение класса двудольные, семейства виноградовые



Информация о контиге
Размер 324868 пар оснований
Число генов 39
Число белок-кодирующих последовательностей 40

С двух генов транскрибируется некодирующая РНК. Для двух генов предсказан альтернативный сплайсинг.

Для гена с координатами 93,647..97,868 предсказан альтернативный сплайсинг.

На рисунке представлено геномное окружение этого гена, различные варианты транскрибируемых с него мРНК и соответсвующие им изоформы белков. Для данного гена возможно 2 альтернативных варианта мРНК (синие полосы). Данным мРНК соответсвуют 2 изоформы белка (красные полосы).

Предсказание генов

Используем Web-сервис AUGUSTUS .

Виноград это растение. класс двудольные AUGUSTUS предлагает 4 растения: Arabidopsis thaliana Solaneum lycopersicum, Triticum/wheat, Zea mays Пшеница и кукуруза это однодольные растения, т.е. Резуховидка Таля и томат ближе по систематике. Я выбрала резуховидку.

Предсказание. Выбрали организм. Загрузили fasta файл с последовательностью контига. Выбрали параметры: предсказать гены на обеих цепях, не предсказывать 3'UTR (нетранслируемую область), Предсказать любое число, возможно, неполных генов (альтернативы: предказывать только полные гены, предсказывать только полные гены и предсказать по крайней мере один, предсказать ровно один ген. Не предсказывать альтернативные транскрипты. Не игнорировать конфликты с другой цепью.

––––––––––––––––––––
Sun Dec 11 13:32:12 CET 2016 - Message:
––––––––––––––––––––

Details of your job:

Prediction job ID: predcu3mKrmf
AUGUSTUS parameter project identifier: arabidopsis
Genome file: seq_vitis.fasta
User set UTR prediction: false
Report genes on: both strands
Alternative transcripts: none
Allowed gene structure: predict any number of (possibly partial) genes
Ignore conflictes with other strand: false

       

Программа возвращает архив с 6 файлами.

Расширение файла Содержание фала
.aa белковые последовательности предсказанных генов в fasta формате
.cdsexons нуклеотидные последовательности экзонов в fasta формате
.codingseq последовательности кодирующих участков ДНК в fasta формате
.gbrouse трек-файл предсказания для геномного браузера
.gff информация о предсказанных генах в формате gff (Gene Feature Format)
.gft информация о предсказаных генах в формате gft

Посмотрим файл с расширением gff, т.к. у нас есть скрипты для оценки пресказания с преддыдущего практикума.



Обработаем файл augustus.gff скриптами
CDS_only.py
Gene_only.py
Check_prediction_equal.py
Check_prediction_equal_start.py
Check_prediction_equal_stop.py

Аugustus предсказывает 69 генов. Посмотрим их границы.
1 полностью правильно предсказанный ген
4 гена с правильно предсказанным С-концом
Что-то не впечатляет.

Попробуем посмотреть CDS:
168 CDS в аннотации
243 в предсказании
Получилось 138 правильно предсказанных CDS

Попробуем еще раз, только теперь для образца выберем томат.

Повторим все действия для файла augustus_tomato.gff

Аugustus предсказывает 70 генов.
0 полностью правильно предсказанных генов
2 c правильно предсказанным N-концом
4 гена с правильно предсказанным С-концом

Попробуем посмотреть CDS:
168 CDS в аннотации
222 в предсказании
Получилось 124 правильно предсказанных CDS

AUGUSTUS довольно плохо предсказывает гены. Он предсказывает больше белок ккодирующих последовательностей, чем есть на самом деле, но предсказывае их довольно качественно. Как интерпретировать этот результат, не очень понятно.

При выборе параметров предсказания я указывала "не предсказывать альтернативные транскрипты", т.к. в этом контиге всего два таких гена. Запустим AUGUSTUS еще раз.

Параметры:

Details of your job:

Prediction job ID: predzQLPXND4
AUGUSTUS parameter project identifier: arabidopsis
Genome file: NW_003724208.1[92000..100000].fa
User set UTR prediction: false
Report genes on: both strands
Alternative transcripts: few
Allowed gene structure: only predict complete genes
Ignore conflictes with other strand: false

Я взяла немного другой fasta файл – с участком 92000..100000. Там 3 гена, для одного из которых предсказан альтернативный сплайсинг.

Вот файл gff, который выдал AUGUSTUS. Предсказано 3 гена. Для третьего предсказано много CDS – это экзоны, а альтернативный сплайсинг не предсказан. Не понятно, правильно ли предсказаны границы генов, т.к. сбилась нумерация. Но нас ведь интересовало, предскажет ли программа альтернативный сплайсинг.

Нелегкое это дело, предсказывать гены эукариот(((