Выданный контиг NW_005434540 принадлежит организму Guillardia theta.
Систематическое положение Guillardia theta:
Домен: Eukaryota Тип: Cryptophyta Класс: Cryptophyceae Семейство: Geminigeraceae Род: Guillardia Вид: G. theta
Хлоропласт данной криптофитовой водоросли окружён 4 мембранами, наружная несёт на своей поверхности рибосомы и продолжается в ядерную мембрану и эндоплазматический ретикулум (ЭПР). Между двумя парами мембран расположено перипластидное пространство, в котором располагаются 80S рибосомы, зёрна крахмала, а также нуклеоморф — сильно редуцированное ядро красной водоросли.
Предсказанное количество белок-кодирующих генов в пластидах, митохондриях, нуклеоморфе и ядре представлены на рис.1. Примерно 50% из этих белков являются уникальными, то есть не имеют гомологов среди других организмов. Геном содержит большое количество паралогов - 3284.[1]
Некоторые сведения о геноме G. theta представлены в табл.1.
Параметр | Значение |
Размер генома | 87.2 Mb |
Количество белок-кодирующих генов | 24840 |
Количество генов с интронами(%) | 80 |
Средняя длина интронов(bp) | 110 |
Среднее число экзонов на ген | 6.4 |
Сведения о контиге NW_005434540
Размер контига: 178933 bp Количество генов: 40 Количество белок-кодирующих генов: 40 Количество возможных транслируемых белков: 191
К сожалению, мне не удалось найти ген G. theta, для которого предсказан альтернативный сплайсинг. На рис.2 привеено изображение из геномного браузера, на котором видно, что для каждого гена есть лишь 1 вариант мРНК(синий) и белка(красный).
В связи с этим был взят другой контиг (резервный) - NW_016683393. Он принадлежит Xenopus tropicalis (Когтистая шпорцевая лягушка).
Систематическое положение: Царство: Animalia Тип: Chordata Класс: Amphibia Семейство: Pipidae Род: Xenopus
Сведения о контиге NW_016683393
Размер контига: 1742295 bp Количество генов: 27 Количество белок-кодирующих генов: 26 Количество возможных транслируемых белков: 493
На рис. 4 представлен участок из геномного браузера (координаты 51085..62670), в котором имеется 2 варианта транслируемых белков: proepiregulin precursor и proepiregulin isoform X1.
Структура проэпирегулина человека в комплексе с Fab фрагментом антитела 9E5 (PDB ID: 1K36) представлена на рис.5
Проэпирегулин является лигандом рецептора эпирегулина. Стимулирует фосфорилирование тирозина. Способствует заживлению ран, регенерации тканей, созреванию ооцитов путем регуляции ангиогенеза и стимуляции пролиферации клеток. [2]
Другие особенности контига
В геномном браузере для контига NW_016683393 был обнаружен участок, в котором как прямой (координаты 1502765..1509038), так и на обратной (коорlинаты complement 1426880..1576042) цепях расположены гены (рис.6). Причем в том месте, где на прямой цепи расположен экзон, на обратной цепи находится интрон другого гена.
С помощью веб-сервера AUGUSTUS было запущено предсказание генов контига X. tropicalis. AUGUSTUS предсказывает гены, учитывая такие параметры, как окрестности донорного и акцепторного сайтов, старт трансляции, участок перед стартом трансляции, кодирующая и некодирующая последовательности и т.д. Причем все эти параметры оцениваются на основании сделанных предсказаний для близкородственного организма. В качестве организма, из генома которого будут браться параметры модели, был выбран модельный организм Danio Rerio. Выбор обусловлен тем, что этот организм наиболее эволюционно близок к X. tropicalis (рис.7)
Параметры запуска
Параметр | Значение | Комментарий |
Genome file | fasta-файл контига NW_016683393 | Входной файл, для которого делается предсказание |
UTR prediction | no | Этот параметр доступен только для модельных организмов, у которого имеются UTR. Danio Rerio нет в списке организмов, для которых доситупен этот параметр, поэтому эта функция была отключена. |
Report genes on | both strands | Предсказание генов на обоих цепях |
Alternative transcripts | medium | Для предсказания альтернативных транскриптов было взято значение medium, что означает предсказание до 3 вариантов мРНК на каждый ген. Это значение было выбрано на основании данных из геномного браузера, где для большинства генов имеется 2-3 варианта транслируемых белков. |
Allowed gene structure | predict any number of (possibly partial) genes | Предсказание стрится на основании того, что на концах последовательностей могут находиться частичные гены. |
Результаты
На выходе программа предоставила несколько файлов, подробная информация о которых представлена в табл.3.
Название файла | Описание содержимого |
augustus.aa | Предсказанные белки в fasta-формате |
augustus.cdsexons | Предсказанные экзоны в fasta-формате |
augustus.codingseq | Предсказанные белок-кодирующих генов в fatsa-формате |
augustus.gbrowse | Предсказанные гены для визуализации в геномном браузере GBrowse |
augustus.gff | Предсказанные гены в формате .gff |
augustus.gtf | Предсказанные гены в формате .gtf |
AUGUSTIS предсказал 38 генов и 476 возможных транслируемых белков. Напомню, что в GenBank аннотировано 27 генов и 493 возможных транслируемых белка. Несмотря на то, что предсказано больше генов, координаты многих из них довольно сильно отличаются (рис.8). Количество возможных транслируемых белков оказалось близким к значению, указанному в GenBank, что можно объяснить тем, что в параметрах запуска было указано Alternative transcripts: medium (максимум 3 варианта белка на ген), хотя в GenBankе были случаи, где на один ген приходилось до 6 вариантов белков.
Что касается участка с координатами 51085..62670, с которого на обратной цепи по данным GenBank транслируются 2 белка, то AUGUSTUS предсказал на этом месте ген с координатми 11514..71674 и только 1 транслируемый белок(рис.9). Я думаю, что это связано с тем, что параметры модельного организма, по которым программа предсказывает гены все-таки довольно сильно отличаются, в связи с чем и полученное предсказание отличается от аннотации GenBank.
1. Bruce A. Curtis, Goro Tanifuji, Fabien Burki, Ansgar Gruber. Algal genomes reveal evolutionary mosaicism and the fate of nucleomorphs. Nature 492, 59–65 (2012)
© Васильева Елена, 2015