Учебный сайт Алены Корягиной

Предсказание генов у эукариот

В предыдущей работе была проведена работа по предсказанию генов у прокариот. В этой работе будут рассмотрены фрагменты ДНК из геномов нескольких эукариотов, для которых с помощью программ GENSCAN и UCSC Genome Browser, а также BLASTX будут предсказаны гены, закодированных в данных фрагментах, определены экзон-интронные схемы генов и описан их альтеранативный сплайсинг.

Программы GENSCAN и UCSC Genome Browser

Был рассмотрен фрагмент ДНК из генома человека. Программа GENSCAN позволила получить следующую информацию:
1) фрагмент состоит из 38 710 нуклеотидов;
2) процентное содержание нуклеотидов C+G составляет 34.56%;
3) предположительно выявлен 1 ген;
4) в предполагаемом гене находятся 5 экзонов и 1 сайт полиаденилирования (частично информация о экзонах представлена в табл.1);
5) предположительную последовательность белка, состоящего из 330 а.о см. здесь.

Таблица 1. Информация об экзонах в найденном гене человека, полученная с помощью программы GENSCAN

Начало Конец Цепь Тип
1 1 156 1 592 + внутренний
2 1 698 1 782 + внутренний
3 8 842 8 929 + внутренний
4 34 134 34 251 + внутренний
5 34 812 34 962 + внутренний
6 38 184 38 296 + конечный

Дальше предсказание экзон-интронной схемы гена для данного фрагмента проведено с помощью программы UCSC Genome Browser. Данная программа позволяет искать последовательности с учетом ее возможной фрагментированности. В результате работы данной программы с определенными параметрами: «pack» для Blat Sequence в группе Mapping and Sequencing Tracks, для Human mRNAs и Spliced ESTs в группе mRNA and EST Tracks, для всего остального "hide", были получены участки гена, предсказанные на основе мРНК и EST (короткие фрагменты клонированной мРНК). При изучении полученных участков (см.рис.1) было определено 6 экзонов и было найдено несколько примеров альтернативного сплайсинга с участием кассетных экзонов. Кассетный экзон – это кодирующая последовательность гена, окруженная с двух сторон интронами, которая может не включаться в последовательность мРНК при сплайсинге. На рисунке 1 оранжевыми рамками выделены примеры, где кассетные экзоны включены и не включены в последовательность мРНК.

Рис.1. Фрагмент отображения последовательностей мРНК и EST, соответствующих исследуемому фрагменту ДНК человека. Вверху картинки экзоны пронумерованы в соответствии с таблицей 1. Оранжевыми рамками выделены примеры альтернатив сплайсинга типа кассетный экзон. Рисунок получен с помощью программы UCSC Genome Browser.

По результатам работы вышеописанных программ и анализа полученных данных можно сделать вывод, что рассматриваемый фрагмент ДНК из генома человека содержит в себе 1 ген с 6 экзонами (их координаты см. в таблице 1), из которых два (№ 3 и 4) представляют собой кассетные экзоны.

Программа BLASTX

Далее был рассмотрен фрагмент ДНК из генома киви Actinidia chinensis (фрукт) длинной 104 833 нуклеотида. Так как геном киви, в отличии от генома человека, не является хорошо аннотированным, то для предсказания генов этого фрагмента использовалась программа BLASTX, а не ранее использованные GENSCAN и UCSC Genome Browser. Программа BLASTX выполняет поиск гомологичных последовательностей белков, соответствующих участков исследуемого фрагмента ДНК. Поиск проводился со следующими параметрами: исключение поиска по моделям и пробам среды, ограничение поиска по белкам растений, исключение поиска по геному винограда, использование стандартного генетического кода. Также поиск проводился несколько раз по двум банкам: Refseq и SwissProt.

На основании найденных гомологичных последовательностей было предсказано 4 гена, в некоторых из которых возможен сплайсинг. Дальнейшее предсказания функций генов и их экзон-интронной структуры происходило на основании лучшей находки в группе, соответствующей каждому гену.

Первый ген расположен с 7 351 по 11 106 нуклеотид и предположительно кодирует белок семейства ферментов Р450 (cytochrome P450) – это фермент, который каталицирует множество реакций расщипления и окисления. Ген содержит 2 экзона, информация о которых содержится в таблице 2.

Таблица 2. Информация об экзонах предполагаемого гена, кодирующего белок семейства Р450, полученная с помощью программы BLASTX

Начало Конец Цепь Тип
1 7 351 9 051 - конечный
2 9 352 11 106 - начальный

Второй ген кодирует белок 1-аминоциклопропан-1-карбоксил оксидаза – этилен-формирующий энзим. Координаты данного гена: 13 441-60 216. Ген содержит 3 экзона, информацию о них см. в таблице 3.

Таблица 3. Информация об экзонах предполагаемого гена, кодирующего белок 1-аминоциклопропан-1-карбоксил оксидазу, полученная с помощью программы BLASTX

Начало Конец Цепь Тип
1 13 441 14 034 - конечный
2 49 084 49 668 - внутренний
3 59 110 60 216 - начальный

Для следующего гена, гена № 3, было предположение о наличии в нем альтернативного сплайсинга, потому что было найдено 22 гомологичных последовательности, в которых представлено разное количество экзонов (графическое представление см. здесь), зависимости между наличием опредеоленных экзонов и закодированным белком выявлено не было. Поэтому предсказать варианты альтернативного сплайсинга на основе этих данных затруднительно. В связи с этим была взята последовательность, содержащая наибольшее возможное количество экзонов – 6. Выбранный ген кодирует киназу 1, фосфорилирующую свингозиновые основания (Sphingoid long-chain bases kinase 1), он расположен с 81 505 по 146 535 нуклеотид. В таблице 4 находится информация о экзонах этого гена.

Таблица 3. Информация об экзонах предполагаемого гена, кодирующего белок 1-аминоциклопропан-1-карбоксил оксидазу, полученная с помощью программы BLASTX

Начало Конец Цепь Тип
1 81 505 81 936 - конечный
2 82 918 85 815 - внутренний
3 124 144 124 527 - внутренний
4 133 906 134 355 - внутренний
5 142 075 142 542 - внутренний
6 144 016 146 535 - начальный

Для последнего гена аналогично предыдущему была выбрана последовательность, содержащая наибольшее количество экзонов, а именно 8. Этот ген, расположенный с 199 990 нуклеотид по 251 094, предположительно кодирует фермент копропорфириноген-III оксидазу (сoproporphyrinogen-III oxidase). Информация о 8 экзонах данного гена находится в таблице 5.

Таблица 3. Информация об экзонах предполагаемого гена, кодирующего белок 1-аминоциклопропан-1-карбоксил оксидазу, полученная с помощью программы BLASTX

Начало Конец Цепь Тип
1 199 990 201 069 + начальный
2 214 168 214 383 + внутренний
3 238 222 238 590 + внутренний
4 239 404 239 655 + внутренний
5 248 638 248 916 + внутренний
6 249 655 250 050 + внутренний
7 250 270 250 620 + внутренний
8 250 870 251 094 + конечный

© Alyona Koryagina aakor@fbb.msu.ru

Дата последнего изменения: 22.12.2014