Практикум #10. Геномные браузеры

Задание 1. UCSC

Для выполнения задания был выбран белок: hemoglobin subunit alpha 1. В таблице 1 указаны его параметры, таблицы 2 и 3 предназначены для альтернативных транскриптов. На рисунке 1 указана окрестность гена в Genome Browser с необходимыми трэками.

37_R_bad

Рис.1 Геномное окружение
Таблица 1. Параметры гена
Имя гена HBA1
Gencode ID ENSG00000206172.8
Цепь +
Расположение chr16:p13.3:176680-177522
Альтернативных транскриптов 2
Таблица 2. Альтернативный транскрипт 1
Gencode ID ENST00000397797.1
Координаты chr16:176,704-177,522
Число экзонов 3
Длина белка 110
Таблица 3. Альтернативный транскрипт 2
Gencode ID ENST00000320868.9
Координаты chr16:176,680-177,522
Число экзонов 3
Длина белка 142

В Ensemble был найден человеческий ген HBA1, который был выровнен с геном шимпанзе (выравнивание прилагается). С помощью программы infoalign пакета EMBOSS была получена информация о различиях двух генов. Команда: infoalign H_C_al.fa -only -diffcount -seqlen -heading -name out. Результат:

# Name        SeqLen	Differ	
ENSP00000322421_Hsap_1-426	426	0
ENSPTRP00000067405_Ptro_1-426	426	3
			
Таким образом мы получаем, что различаются лишь 0.7% нуклеотидов. Высокую схожесть можно было предвидеть еще при осмотре рисунка 1. Где в трэке SNP в экзоне встретился лишь один. Исследования показывают, что на полный геном человека и шимпанзе лишь 1.23% различных нуклеотидов. То что, в выбранном гене различия меньше различий по всему геному, возможно, говорит о высокой консервативности субъединиц гемоглобина.

37_R_bad

Рис.2 Получение выравнивания

В качестве РНО я выбрал ген белка PAX6, который участвует в образовании сетчатки и ее регенерации (по крайней мере у некоторых беспов). В Ensemble был найден этот ген и построено выравнивание с геном шимпанзе выравнивание прилагается). При этом в выравнивании не было дополнительных блоков (то есть выравнивание было одно и полное). С помощью программы infoalign пакета EMBOSS была получена информация о различиях двух генов. Команда: infoalign H_C_al.fa -only -diffcount -seqlen -heading -name out. Результат:

# Name        SeqLen	Differ	
homo_sapiens_1-33260	33183	0
pan_troglodytes_1-33260	33104	307
			
Теперь, т.к. длины последовательностей чуть-чуть различаются, то возьмем их среднее (33143.5) и посмотрим процент различия. Получается, что различие составляет лишь 0.009 (меньше одного процента). Исследования показывают, что на полный геном человека и шимпанзе лишь 1.23% различных нуклеотидов. То что, в выбранном гене различия меньше различий по всему геному, возможно, говорит о высокой консервативности данного гена (ведь он играет большую роль в дифференциации клеток, образующих зрительный аппарат).

37_R_bad

Рис.3 Получение выравнивания v2.0