Задание 1
Таблица 1. Характеристики контига NW_010729287
Название вида | Nelumbo nucifera |
Название вида на русском | Лотос орехоносный |
Таксономия | Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; eudicotyledons; Proteales; Nelumbonaceae; Nelumbo |
Размер контига (в п.н.) | 913637 |
Число генов | 25 |
Число CDS | 260 |
Ссылка на fasta-файл с последовательностью контига
Был найден ген, для которого спрогнозировано 4 варианта транскрипта: LOC104588686 BTB/POZ domain-containing protein At5g47800-like (350210..358354)
Рис.1. Лотос орехоносный
Рис.2. Изображение гена LOC104588686 с 4 изоформами
Интересно то, что в данном контиге присутствует только один экземпляр некодирующей РНК (LOC104588701, относится к классу длинных некодирующих РНК).
Задание 2
Параметры, с которыми была запущена программа AUGUSTUS: в качестве модельного организма был выбран Arabidopsis thaliana, также алгоритм должен был сообщать о генах с обоих цепей, так как по обоим цепям присутствует информации в предсказании генов у GenBank, также для сравнения числа альтернативных транскриптов у гена из задания 1 был выбран режим предсказания альтернативных транскриптов medium. Allowed gene structure был оставлен по умолчанию.
Таблица 2. Сравнение числа генов, экзонов и CDS
# | AUGUSTUS | GenBank |
Гены | 123 | 25 |
Экзоны | 1443 | 280 |
CDS | 1367 | 260 |
Файлы, полученные в результате работы AUGUSTUS:
augustus.aa Содержит данные об аминокислотных последовательностях
augustus.cdsexons Содержит информацию о последовательностях экзонов
augustus.codingseq Содержит информацию о последовательностях CDS
augustus.gbrowse Содержит таблицу особенностей, координаты различных участков геномов и на какой цепи они расположены.
augustus.gff Совмещает в себе информацию из .gff и .codingseq
augustus.gft В общем повторяет содержание .gbrowse
augustus.mrna Содержит информацию о последовательностях мРНК
Затем с помощью скрипта было проведено сравнение координат границ CDS.
Таблица 3. Сравнение границ CDS по данным от разных источников.
# | AUGUSTUS(количество) | AUGUSTUS(%) | GenBank(количество) | GenBank(%) |
Совпадают оба конца | 78 | 9.31 | 78 | 67.83 |
Совпадает N-конец | 15 | 1.79 | 15 | 13.04 |
Совпадает С-конец | 7 | 0.84 | 7 | 6.09 |
Совпадения отсутствуют | 738 | 88.07 | 15 | 13.04 |
Итого | 838 | 100 | 115 | 100 |
Во-первых, необходимо пояснить несоответствие числа CDS в таблице 2 и 3. В процессе работы скрипта были удалены повторяющиеся CDS. Во-вторых, видно, что CDS с помощью AUGUSTUS-а было предсказано значительно больше, причем при запуске на иных параметрах (с отсутствующими альтернативными транскриптами и частичными генами), число CDS уменьшилось лишь на 4. При замене модельного организма на Solanum lycopersicum число CDS уменьшилось до 696, что все равно значительно больше числа CDS в файле GenBank. Число CDS, совпадающих хотя бы по одному концу, остается примерно одинаковым - 100, 95, 99. Больше 85% предсказаний AUGUSTUS не совпадают с предсказаниями в аннотации GenBank. Наиболее близким по расположению к гену из задания 1 является ген под обозначением g50, c координатами 350213..358208. Что примечательно, несмотря на выставленный режим предсказания альтернативных транскриптов medium, у g50 никаких вариантов транскриптов не упоминается.