Семестры • Третий семестр • Предсказание генов у эукариот
Мне был дан фрагмент ДНК из генома человека. С помощью программы GENSCAN я получил таблицу экзонов. В данном фрагменте программа определила только один ген, информация об его экзонах приведена в таблице 1.
Таблица 1. Экзоны в данном фрагмента ДНК.
Начало |
Конец |
Цепь |
Тип |
4515 | 4623 | + | Внутренний |
4901 | 5175 | + | Внутренний |
5233 | 5464 | + | Внутренний |
9834 | 10103 | + | Внутренний |
10327 | 10392 | + | Внутренний |
11947 | 12116 | + | Внутренний |
12200 | 12323 | + | Внутренний |
12415 | 12605 | + | Внутренний |
13494 | 13644 | + | Внутренний |
13730 | 13907 | + | Внутренний |
13965 | 14232 | + | Внутренний |
14272 | 14416 | + | Внутренний |
14910 | 15100 | + | Внутренний |
15404 | 15549 | + | Внутренний |
15935 | 16056 | + | Внутренний |
16139 | 16249 | + | Внутренний |
16330 | 16520 | + | Внутренний |
16631 | 16753 | + | Внутренний |
16837 | 16907 | + | Внутренний |
17126 | 17263 | + | Внутренний |
17409 | 17514 | + | Внутренний |
17693 | 17838 | + | Внутренний |
18042 | 18141 | + | Внутренний |
22065 | 22280 | + | Внутренний |
База Genome Browser содержит гены, белки, мРНК и другие объекты, картированные на различные аннотированные геномы. С помощью программы BLAT я провел поиск экзонов в моем фрагменте против полного генома человека. Из выдачи я взял находку с идентичностью 100% и e-value, на два порядка превышающим остальные. Схема последовательностей мРНК, выравненных с моим фрагментом, представлена на рис.1, EST - на рис.2.
Рисунок 1. Схема выравненных последовательностей мРНК. Цветом я выделил близкие мРНК, образующие "семейства" по варианту сплайсинга. Близость разных цветов не коррелирует с близостью вариантов сплайсинга.
На рис.1 я выделил цветом т.н. "семейства" мРНК, близкие по варианту сплайсинга (оценка субъективная и только для удобства, близость цветов не коррелирует с "близостью" вариантов сплайсинга). Сами полоски, представляющие экзоны, выделены красным в случае выхода последовательности мРНК за пределы моего фрагмента.
Видно, что в случае мРНК AF245114 (светло-голубая) и M58051 (голубая) имеет место быть альтернативный сплайсинг с двумя кассетными экзонами (аналогично и с теми же экзонами - мРНК JA667064 и JA667065 (оттенки зеленого)). В случае AF369211 и AF369212 (светло-желтые) первая мРНК имеет альтернативный донорный сайт.
Рисунок 2. Схема выравненных EST. Окрашивание аналогично.
С помощью данных по EST также можно описать альтернативный сплайсинг: например, при рассмотрении CX164388 и AL048843 видно, что первоый содержит удержанный экзон.
Любопытно подобное разнообразие вариантов сплайсинга, наблюдаемое на рис. 2. К сожалению, объяснения этому я не нашел.
Экзон-интронную структуру можно также предсказать с помощью BLAST. При помощи blastx в этом задании я проаннотировал данный мне фрагмент генома Actinidia chinensis (растение, плоды которого известны нам как киви). Поиск против базы SwissProt/UniProt выдает следующую картинку распределения находок по длине фрагмента:
Рисунок 3. Поиск blastx против SwissProt/UniProt.
До 80000 нуклеотида четко видно положение пяти предположительных генов, затем же четкого столбика гомологов не наблюдается. Я дополнительно провел поиск blastx только по участку с 80000 по 100000 нуклеотид:
Рисунок 4. Поиск blastx по участку 80000:100000 против SwissProt/UniProt.
По результатам этого поиска можно предсказать еще два гена, причем последовательность, на этом изображении содержащая два экзона, представляет не один ген, а набор изоформ, кодирующих разные катион/протон антипортеры.
Также я провел поиск против базы RefSeq protein. Результат представлен на рис.5.
Рисунок 5. Поиск blastx против RefSeq Protein.
Из каждой "колонки" гомологичных генов я выбрал один с самым большим e-value (несколько в случае совпадения) и по ним провел аннотацию экзонов, приеведенную в таблице 2.
Таблица 2. Предсказание генов, функции их продуктов и экзонов.
Номер гена |
Предположительная функция |
Номер экзона |
Координаты начала |
Координаты конца |
1 | Белок-переносчик биотина и карбоксибиотина ацетил-КоА карбоксилазы 2 | 1 | 14865 | 14482 |
2 | 13833 | 13756 | ||
3 | 13106 | 13041 | ||
2 | 40S рибосомальный белок S19-3 | 1 | 19402 | 19500 |
2 | 21203 | 21289 | ||
3 | 21404 | 21589 | ||
4 | 22129 | 22185 | ||
3 | Диацилглицерин киназа | 1 | 26677 | 27867 |
2 | 28038 | 28406 | ||
3 | 30220 | 30297 | ||
4 | 33350 | 33472 | ||
5 | 33849 | 34008 | ||
6 | 34641 | 34784 | ||
7 | 36308 | 36640 | ||
4 | АТФ-зависимая РНК-хеликаза | 1 | 45784 | 45692 |
2 | 43047 | 42931 | ||
3 | 42854 | 42783 | ||
4 | 42298 | 41252 | ||
5 | 40957 | 40895 | ||
6 | 40084 | 39740 | ||
7 | 39057 | 38971 | ||
5 | Внутриклеточный относящийся к Ras-группе обогащенный лейциновыми повторами белок | 1 | 57272 | 57433 |
2 | 61582 | 61722 | ||
3 | 61845 | 61922 | ||
4 | 63264 | 63350 | ||
5 | 65107 | 65190 | ||
6 | 66460 | 66552 | ||
7 | 66657 | 66767 | ||
6 | Белок SNAP33, гомологичный белку SNAP25 | 1 | 80002 | 80145 |
2 | 81461 | 81520 | ||
3 | 81682 | 81813 | ||
4 | 82037 | 82123 | ||
7 | Катион/протон антипортер 3 | 1 | 88777 | 87758 |
2 | 87349 | 86276 |