1. UCSC
В рамках здания требовалось выбрать какой-нибудь белок человека и найдите информацию о гене этого белка в геномном браузере UCSC. Выбор пал на белок Alpha-tectorin с названием гена TECTA. Характеристика гена приведена в таблице 1.
Краткое имя | TECTA |
Gencode ID | ENSG00000109927.10 |
Цепь | прямая |
Хромосома | chr11 |
Плечо, полоса | q23.3 |
Число транскриптов | 3 |
Gencode ID транскрипта 1 | ENST00000392793.5 |
координаты транскрипта 1 | 121,101,173-121,191,493 |
общее число экзонов транскрипта 1 | 24 |
длина последовательности белка транскрипта 1 | 2155 аа |
Gencode ID транскрипта 2 | ENST00000642222.1 |
координаты транскрипта 2 | 121,101,379-121,191,450 |
общее число экзонов транскрипта 2 | 24 |
длина последовательности белка транскрипта 2 | 2150аа |
Gencode ID транскрипта 3 | ENST00000264037.2 |
координаты транскрипта 3 | 121,102,666-121,190,806 |
общее число экзонов транскрипта 3 | 23 |
длина последовательности белка транскрипта 3 | 23 |
общее число экзонов транскрипта 3 | 2155аа |
общее число экзонов транскрипта 3 | 23 |
Было получено изображение окрестности гена из Genome Browser c треками: транскрипты GENCODE и RefSeq, консервативность последовательности среди позвоночных (Conservation), частые полиморфизмы (Common SNPs) последней версии (151) (Рис. 1).
2. Ensembl
В данном задании предлагается построить выравнивание выбранного гена человека (TECTA) с гомологичным геном шимпанзе.
В браузере Ensembl была найдена последовательность гена TECTA человека, там же, следуя указаниям, было впоплнено выравнивание этого гена с гомологичным геном шимпанзе. Выравнивание было скачено. Выравнивание доступно по ссылке.
Далее командой "infoalign -sequence TECTA_alignment.fa -outfile TECTA.infoalign -html" была получена информация о выравнивании в виде html-таблицы:
USA | Name | Sequence Length | Aligned Length | Gaps | Gap Length | Identity | Similarity | Difference | % Change | Weight |
---|---|---|---|---|---|---|---|---|---|---|
fasta::alignment.fa:homo_sapiens_1-90752 | homo_sapiens_1-90752 | 90321 | 90752 | 66 | 431 | 90321 | 0 | 0 | 0.474921 | 1.000000 |
fasta::alignment.fa:pan_troglodytes_1-90752 | pan_troglodytes_1-90752 | 89513 | 90752 | 63 | 1239 | 83908 | 0 | 5605 | 7.541431 | 1.000000 |
Чтобы найти процент отличий человека и шимпанзе в гене TECTA можно различие в количестве нуклеотидов поделить на всю длину последовательности и умножить на 100: 5605/89513*100 = 6.262%. Согласно статье "Initial sequence of the chimpanzee genome and comparison with the human genome" в журнале "Nature" (ссылка) полногеномные различия между обезьяной и человеком оцениваются в 1.23%, что в ~5.09 раза меньше полученного различия.