Предсказание генов эукариот

Задание 1

Таблица 1. Характеристики контига NW_010729287

Название вида Nelumbo nucifera
Название вида на русском Лотос орехоносный
Таксономия Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; eudicotyledons; Proteales; Nelumbonaceae; Nelumbo
Размер контига (в п.н.) 913637
Число генов 25
Число CDS 260

Ссылка на fasta-файл с последовательностью контига

Был найден ген, для которого спрогнозировано 4 варианта транскрипта: LOC104588686 BTB/POZ domain-containing protein At5g47800-like (350210..358354)

Рис.1. Лотос орехоносный

Рис.2. Изображение гена LOC104588686 с 4 изоформами

Интересно то, что в данном контиге присутствует только один экземпляр некодирующей РНК (LOC104588701, относится к классу длинных некодирующих РНК).

Задание 2

Параметры, с которыми была запущена программа AUGUSTUS: в качестве модельного организма был выбран Arabidopsis thaliana, также алгоритм должен был сообщать о генах с обоих цепей, так как по обоим цепям присутствует информации в предсказании генов у GenBank, также для сравнения числа альтернативных транскриптов у гена из задания 1 был выбран режим предсказания альтернативных транскриптов medium. Allowed gene structure был оставлен по умолчанию.

Таблица 2. Сравнение числа генов, экзонов и CDS

# AUGUSTUS GenBank
Гены 123 25
Экзоны 1443 280
CDS 1367 260

Файлы, полученные в результате работы AUGUSTUS:

augustus.aa Содержит данные об аминокислотных последовательностях

augustus.cdsexons Содержит информацию о последовательностях экзонов

augustus.codingseq Содержит информацию о последовательностях CDS

augustus.gbrowse Содержит таблицу особенностей, координаты различных участков геномов и на какой цепи они расположены.

augustus.gff Совмещает в себе информацию из .gff и .codingseq

augustus.gft В общем повторяет содержание .gbrowse

augustus.mrna Содержит информацию о последовательностях мРНК

Затем с помощью скрипта было проведено сравнение координат границ CDS.

Таблица 3. Сравнение границ CDS по данным от разных источников.

# AUGUSTUS(количество) AUGUSTUS(%) GenBank(количество) GenBank(%)
Совпадают оба конца 78 9.31 78 67.83
Совпадает N-конец 15 1.79 15 13.04
Совпадает С-конец 7 0.84 7 6.09
Совпадения отсутствуют 738 88.07 15 13.04
Итого 838 100 115 100

Во-первых, необходимо пояснить несоответствие числа CDS в таблице 2 и 3. В процессе работы скрипта были удалены повторяющиеся CDS. Во-вторых, видно, что CDS с помощью AUGUSTUS-а было предсказано значительно больше, причем при запуске на иных параметрах (с отсутствующими альтернативными транскриптами и частичными генами), число CDS уменьшилось лишь на 4. При замене модельного организма на Solanum lycopersicum число CDS уменьшилось до 696, что все равно значительно больше числа CDS в файле GenBank. Число CDS, совпадающих хотя бы по одному концу, остается примерно одинаковым - 100, 95, 99. Больше 85% предсказаний AUGUSTUS не совпадают с предсказаниями в аннотации GenBank. Наиболее близким по расположению к гену из задания 1 является ген под обозначением g50, c координатами 350213..358208. Что примечательно, несмотря на выставленный режим предсказания альтернативных транскриптов medium, у g50 никаких вариантов транскриптов не упоминается.


© Котюргин Александр, 2015