Практикум 10. Работа с геномными браузерами.

Задание 1. Информация о белке DDX3X в базе UCSC

- короткое и полное имя гена: RecName:
Full=ATP-dependent RNA helicase DDX3X; EC=3.6.4.13;
AltName: Full=DEAD box protein 3, X-chromosomal;
AltName: Full=DEAD box, X isoform;
AltName: Full=Helicase-like protein 2; Short=HLP2
- на какой цепи он закодирован: strand +
- в какой хромосоме находится: chrX
- к каким плечу и полосе принадлежит участок: chrX (p11.4)
- координаты гена в последовательности хромосомы: chrX:41,333,284-41,351,668 (для варианта ENST00000644876.1)
- сколько альтернативных продуктов закодировано в гене: UCSC отображает 21 возможный белковый продукт сплайсинга. В то же время на странице гена в Ensembl указано 69 вариантов сплайсинга (транскрипта). Скорее всего, это говорит о том, что не каждая мРНК с данного гена транслируется.
- число экзонов и длина аминокислотной последовательности для три первых продуктов:
1)ENST00000644876.1: 17 экзонов, 662 аминокислота
2)ENST00000625837.2: 19 экзонов, 733 аминокислоты
3)ENST00000626301.2: 17 экзонов, 640 аминокислот

Изображение окрестности гена из Genome Browser

Задание 2. Ensembl

Выравнивание последовательностей гена DDX3X у человека (ENSG00000215301.10) и у шимпанзе
Программа distmat показала, что в среднем гены отличаются на 0.83 нуклеотида на 100 нуклеотидов. С учетом того, что ген человека состоит из 31188 нуклеотидов (расчет из координат на хромосоме), получается 259 отличий.
В то же время (исходя из variant table в базе Ensembl: https://is.gd/gknaTc) у человека встречается 8664 вариантов этого гена (из которых совершенное большинство, как и следовало ожидать, является вариантами интронов).