Предсказание генов у эукариот

СеместрыТретий семестр • Предсказание генов у эукариот

GENSCAN

Мне был дан фрагмент ДНК из генома человека. С помощью программы GENSCAN я получил таблицу экзонов. В данном фрагменте программа определила только один ген, информация об его экзонах приведена в таблице 1.

Таблица 1. Экзоны в данном фрагмента ДНК.

Начало

Конец

Цепь

Тип

4515 4623 + Внутренний
4901 5175 + Внутренний
5233 5464 + Внутренний
9834 10103 + Внутренний
10327 10392 + Внутренний
11947 12116 + Внутренний
12200 12323 + Внутренний
12415 12605 + Внутренний
13494 13644 + Внутренний
13730 13907 + Внутренний
13965 14232 + Внутренний
14272 14416 + Внутренний
14910 15100 + Внутренний
15404 15549 + Внутренний
15935 16056 + Внутренний
16139 16249 + Внутренний
16330 16520 + Внутренний
16631 16753 + Внутренний
16837 16907 + Внутренний
17126 17263 + Внутренний
17409 17514 + Внутренний
17693 17838 + Внутренний
18042 18141 + Внутренний
22065 22280 + Внутренний

Genome Browser

База Genome Browser содержит гены, белки, мРНК и другие объекты, картированные на различные аннотированные геномы. С помощью программы BLAT я провел поиск экзонов в моем фрагменте против полного генома человека. Из выдачи я взял находку с идентичностью 100% и e-value, на два порядка превышающим остальные. Схема последовательностей мРНК, выравненных с моим фрагментом, представлена на рис.1, EST - на рис.2.

Рисунок 1. Схема выравненных последовательностей мРНК. Цветом я выделил близкие мРНК, образующие "семейства" по варианту сплайсинга. Близость разных цветов не коррелирует с близостью вариантов сплайсинга.

На рис.1 я выделил цветом т.н. "семейства" мРНК, близкие по варианту сплайсинга (оценка субъективная и только для удобства, близость цветов не коррелирует с "близостью" вариантов сплайсинга). Сами полоски, представляющие экзоны, выделены красным в случае выхода последовательности мРНК за пределы моего фрагмента.

Видно, что в случае мРНК AF245114 (светло-голубая) и M58051 (голубая) имеет место быть альтернативный сплайсинг с двумя кассетными экзонами (аналогично и с теми же экзонами - мРНК JA667064 и JA667065 (оттенки зеленого)). В случае AF369211 и AF369212 (светло-желтые) первая мРНК имеет альтернативный донорный сайт.

Рисунок 2. Схема выравненных EST. Окрашивание аналогично.

С помощью данных по EST также можно описать альтернативный сплайсинг: например, при рассмотрении CX164388 и AL048843 видно, что первоый содержит удержанный экзон.

Любопытно подобное разнообразие вариантов сплайсинга, наблюдаемое на рис. 2. К сожалению, объяснения этому я не нашел.

BLASTX

Экзон-интронную структуру можно также предсказать с помощью BLAST. При помощи blastx в этом задании я проаннотировал данный мне фрагмент генома Actinidia chinensis (растение, плоды которого известны нам как киви). Поиск против базы SwissProt/UniProt выдает следующую картинку распределения находок по длине фрагмента:

Рисунок 3. Поиск blastx против SwissProt/UniProt.

До 80000 нуклеотида четко видно положение пяти предположительных генов, затем же четкого столбика гомологов не наблюдается. Я дополнительно провел поиск blastx только по участку с 80000 по 100000 нуклеотид:

Рисунок 4. Поиск blastx по участку 80000:100000 против SwissProt/UniProt.

По результатам этого поиска можно предсказать еще два гена, причем последовательность, на этом изображении содержащая два экзона, представляет не один ген, а набор изоформ, кодирующих разные катион/протон антипортеры.

Также я провел поиск против базы RefSeq protein. Результат представлен на рис.5.

Рисунок 5. Поиск blastx против RefSeq Protein.

Из каждой "колонки" гомологичных генов я выбрал один с самым большим e-value (несколько в случае совпадения) и по ним провел аннотацию экзонов, приеведенную в таблице 2.

Таблица 2. Предсказание генов, функции их продуктов и экзонов.

Номер гена

Предположительная функция

Номер экзона

Координаты начала

Координаты конца

1 Белок-переносчик биотина и карбоксибиотина ацетил-КоА карбоксилазы 2 1 14865 14482
2 13833 13756
3 13106 13041
2 40S рибосомальный белок S19-3 1 19402 19500
2 21203 21289
3 21404 21589
4 22129 22185
3 Диацилглицерин киназа 1 26677 27867
2 28038 28406
3 30220 30297
4 33350 33472
5 33849 34008
6 34641 34784
7 36308 36640
4 АТФ-зависимая РНК-хеликаза 1 45784 45692
2 43047 42931
3 42854 42783
4 42298 41252
5 40957 40895
6 40084 39740
7 39057 38971
5 Внутриклеточный относящийся к Ras-группе обогащенный лейциновыми повторами белок 1 57272 57433
2 61582 61722
3 61845 61922
4 63264 63350
5 65107 65190
6 66460 66552
7 66657 66767
6 Белок SNAP33, гомологичный белку SNAP25 1 80002 80145
2 81461 81520
3 81682 81813
4 82037 82123
7 Катион/протон антипортер 3 1 88777 87758
2 87349 86276