Предсказание генов эукариот

Задание 1

Выданный контиг NW_005434540 принадлежит организму Guillardia theta.

Систематическое положение Guillardia theta:

Домен: Eukaryota 
Тип: Cryptophyta 
Класс: Cryptophyceae
Семейство: Geminigeraceae 
Род: Guillardia
Вид: G. theta

Хлоропласт данной криптофитовой водоросли окружён 4 мембранами, наружная несёт на своей поверхности рибосомы и продолжается в ядерную мембрану и эндоплазматический ретикулум (ЭПР). Между двумя парами мембран расположено перипластидное пространство, в котором располагаются 80S рибосомы, зёрна крахмала, а также нуклеоморф — сильно редуцированное ядро красной водоросли.

Предсказанное количество белок-кодирующих генов в пластидах, митохондриях, нуклеоморфе и ядре представлены на рис.1. Примерно 50% из этих белков являются уникальными, то есть не имеют гомологов среди других организмов. Геном содержит большое количество паралогов - 3284.[1]

Некоторые сведения о геноме G. theta представлены в табл.1.






Параметр Значение
Размер генома 87.2 Mb
Количество белок-кодирующих генов 24840
Количество генов с интронами(%) 80
Средняя длина интронов(bp) 110
Среднее число экзонов на ген 6.4
Таблица 1. Сведения о геноме (источник: [1])
Рис. 1. Строение G. theta (источник: [1])

Сведения о контиге NW_005434540

 Размер контига:  178933 bp
Количество генов: 40 
 Количество белок-кодирующих генов: 40 
Количество возможных транслируемых белков: 191 

К сожалению, мне не удалось найти ген G. theta, для которого предсказан альтернативный сплайсинг. На рис.2 привеено изображение из геномного браузера, на котором видно, что для каждого гена есть лишь 1 вариант мРНК(синий) и белка(красный).

Рис. 2.NW_005434540 (геномный браузер NCBI)




В связи с этим был взят другой контиг (резервный) - NW_016683393. Он принадлежит Xenopus tropicalis (Когтистая шпорцевая лягушка).


Систематическое положение:
Царство: Animalia 
Тип: Chordata
Класс: Amphibia
Семейство: Pipidae
Род: Xenopus
 
Рис. 3. Xenopus tropicalis(источник: genomics.crick.ac.uk)


Сведения о контиге NW_016683393

 Размер контига:  1742295 bp
 Количество генов: 27
 Количество белок-кодирующих генов: 26
 Количество возможных транслируемых белков: 493

На рис. 4 представлен участок из геномного браузера (координаты 51085..62670), в котором имеется 2 варианта транслируемых белков: proepiregulin precursor и proepiregulin isoform X1.

Рис. 4.NW_016683393: 51085..62670(геномный браузер NCBI)



Структура проэпирегулина человека в комплексе с Fab фрагментом антитела 9E5 (PDB ID: 1K36) представлена на рис.5

Проэпирегулин является лигандом рецептора эпирегулина. Стимулирует фосфорилирование тирозина. Способствует заживлению ран, регенерации тканей, созреванию ооцитов путем регуляции ангиогенеза и стимуляции пролиферации клеток. [2]



Рис. 5.Структура проэпирегулина человека в комплексе с Fab фрагментом антитела 9E5 (PDB ID: 5E8D)



Другие особенности контига

В геномном браузере для контига NW_016683393 был обнаружен участок, в котором как прямой (координаты 1502765..1509038), так и на обратной (коорlинаты complement 1426880..1576042) цепях расположены гены (рис.6). Причем в том месте, где на прямой цепи расположен экзон, на обратной цепи находится интрон другого гена.

Рис. 6.Перекрытие генов в NW_016683393: 1426880..1576042 (геномный браузер NCBI)

Задание 2

С помощью веб-сервера AUGUSTUS было запущено предсказание генов контига X. tropicalis. AUGUSTUS предсказывает гены, учитывая такие параметры, как окрестности донорного и акцепторного сайтов, старт трансляции, участок перед стартом трансляции, кодирующая и некодирующая последовательности и т.д. Причем все эти параметры оцениваются на основании сделанных предсказаний для близкородственного организма. В качестве организма, из генома которого будут браться параметры модели, был выбран модельный организм Danio Rerio. Выбор обусловлен тем, что этот организм наиболее эволюционно близок к X. tropicalis (рис.7)



Рис. 7.Участок филогенетического дерева, показывающий близость расположения X. tropicalis и Danio Rerio(Источник: genome-euro.ucsc.edu)






Параметры запуска

Параметр Значение Комментарий
Genome file fasta-файл контига NW_016683393 Входной файл, для которого делается предсказание
UTR prediction no Этот параметр доступен только для модельных организмов, у которого имеются UTR. Danio Rerio нет в списке организмов, для которых доситупен этот параметр, поэтому эта функция была отключена.
Report genes on both strands Предсказание генов на обоих цепях
Alternative transcripts medium Для предсказания альтернативных транскриптов было взято значение medium, что означает предсказание до 3 вариантов мРНК на каждый ген. Это значение было выбрано на основании данных из геномного браузера, где для большинства генов имеется 2-3 варианта транслируемых белков.
Allowed gene structure predict any number of (possibly partial) genes Предсказание стрится на основании того, что на концах последовательностей могут находиться частичные гены.
Таблица 2. Параметры запуска AUGUSTUS

Результаты

На выходе программа предоставила несколько файлов, подробная информация о которых представлена в табл.3.

Название файла Описание содержимого
augustus.aa Предсказанные белки в fasta-формате
augustus.cdsexons Предсказанные экзоны в fasta-формате
augustus.codingseq Предсказанные белок-кодирующих генов в fatsa-формате
augustus.gbrowse Предсказанные гены для визуализации в геномном браузере GBrowse
augustus.gff Предсказанные гены в формате .gff
augustus.gtf Предсказанные гены в формате .gtf
Таблица 3. Выходные файлы AUGUSTUS

AUGUSTIS предсказал 38 генов и 476 возможных транслируемых белков. Напомню, что в GenBank аннотировано 27 генов и 493 возможных транслируемых белка. Несмотря на то, что предсказано больше генов, координаты многих из них довольно сильно отличаются (рис.8). Количество возможных транслируемых белков оказалось близким к значению, указанному в GenBank, что можно объяснить тем, что в параметрах запуска было указано Alternative transcripts: medium (максимум 3 варианта белка на ген), хотя в GenBankе были случаи, где на один ген приходилось до 6 вариантов белков.

Рис. 8.Гены, аннотированные в GenBank(красный) и гены, предсказанные AUGUSTIS(синий)

Что касается участка с координатами 51085..62670, с которого на обратной цепи по данным GenBank транслируются 2 белка, то AUGUSTUS предсказал на этом месте ген с координатми 11514..71674 и только 1 транслируемый белок(рис.9). Я думаю, что это связано с тем, что параметры модельного организма, по которым программа предсказывает гены все-таки довольно сильно отличаются, в связи с чем и полученное предсказание отличается от аннотации GenBank.

Рис. 9.Ген (51085..62670), аннотированный в GenBank(красный) и ген(11514..71674), предсказанные AUGUSTIS(синий)


Ссылки

1. Bruce A. Curtis, Goro Tanifuji, Fabien Burki, Ansgar Gruber. Algal genomes reveal evolutionary mosaicism and the fate of nucleomorphs. Nature 492, 59–65 (2012)

2. Uniprot: O14944


© Васильева Елена, 2015