Практикум 10. Геномные браузеры

Для анализа мной был выбран ген TERT (для человека также встречается обозначение hTERT), кодирующий белок telomerase reverse transcriptase. Он удлиняет теломеры в стволовых, эмбриональных и раковых клетках человека, позволяя им делиться без сокращения длины теломер, в нормальных дифференцированных клетках неактивен. Является онкогеном.

Задание 1. UCSC

  1. Имя гена (короткое): TERT
  2. Идентификатор гена в Gencode: ENSG00000164362.20
  3. Цепь: -
  4. Хромосома: 5
  5. Регион: chr5:p15.33
  6. Число альтернативных транскриптов: 2 (3)

В RefSeq указано 4 транскрипта и 4 изоформы белка, в Ensembl 7 транскриптов, в то время как в GenCode всего 2, каждый кодирует отдельную изоформу белка. Есть также третий отображаемый транскрипт, но он не относится к TERT (ген AC114291.2). Также, он не кодирует белок и находится на обратной цепи. Не описан.

Таблица 1. Характеристика транскриптов
Характеристика Транскрипт 1 Транскрипт 2
Идентификатор Gencode ENST00000310581.9 ENST00000334602.10
Координаты в хромосоме (включая UTR) chr5:1,253,167-1,295,047 chr5:1,253,728-1,294,989
Число экзонов (общее) 16 15
Длина последовательности белка 1132 aa 1069 aa
Окрестность TERT
Рисунок 1. Окрестность гена TERT из Genome Browser c треками: транскрипты GENCODE и RefSeq, Conservation, Common SNPs версии 151.
Лучше открывать картинку в полном размере.

Задание 2. Ensembl

В Ensembl, как упоминалось, нашлось 7 транскриптов, два из них кодируют изоформы работающего белка, ещё две - неработающий (nonsense) белковый продукт, оставшиеся три вообще не транслируются.

Транскрипты Ensembl
Рисунок 2. Транскрипты TERT по версии Ensembl

При выравнивании генов человека и шимпанзе обыкновенного (Pan troglodytes) выяснилось, что одного полного выравнивания нет - оно представлено блоками. Судя по координатам в геноме, у шимпанзе произошла инсерция участка 5:1265017-1310423 (либо у человека делеция соответствующего) - рис. 3. Для уточнения я обратилась к выравниваниям с шимпанзе бонобо (Pan paniscus) и западной гориллой (Gorilla gorilla). Для других гоминид выравнивание полное, так что скорее всего, произошла инсерция у шимпанзе.

Так что для анализа я решила использовать выравнивание TERT человека с TERT бонобо. Как видно на рис. 4, предлагаемые блоки - составные части основного выравнивания (верхнего).

Скачать выравнивание TERT человека и бонобо в формате fasta.

Блоки у шимпанзе
Рисунок 3. Блоки выравнивания Ensembl у шимпанзе (Ссылка на выравнивание)
Блоки у бонобо
Рисунок 4. Блоки выравнивания Ensembl у бонобо (Ссылка на выравнивание)

Общее различие в геномах человека и бонобо - 1.3% (Ссылка на статью)

В этом выравнивании я посчитала характеристики командой infoalign, синтаксис: infoalign -only -name -seqlength -gaps -idcount -diffcount -heading -html XXX.fasta (результат представлен в таблице ниже).

Результат: процент различия = (1 - (36148/37490)) * 100% = 3.58%, что в 2.75 раза больше, чем в среднем по геному. В этой формуле не учитываются гэпы, она позволяет установить только различия в последовательности.

Sequence LengthGapsIdentityDifference
43101 50 43101 0
37490 74 36148 1342

Задание 3. Genome Data Viewer

В поле External references Ensembl есть ссылка на NCBI.

Ссылка на External references Ensembl для TERT

Ссылка на Genome Data Viewer для TERT

Ссылка на UCSC для TERT

В целом,сделать выводы по количеству предоставляемой информации сложно. И в браузере UCSC, и в GDV есть большое количество дополнительных треков, которые выдают практически всю известную научному сообществу информацию об анализируемом участке генома.

Из предоставляемой по умолчанию информации я нашла в Genome Data Viewer интересные пункты, представленные ниже. Но в нём есть различная дополнительная информация и множество треков, которые доступны в меню. Я бы сказала, что графическая репрезентация в GDV удобнее и интерактивнее, чем в UCSC, но это скорее связано с тем, что с ним я уже работала.

Стоит также заметить, что Genome Data Viewer позволяет сразу пользоваться инструментами баз данных NCBI - переходить в нужную базу данных или статью Pubmed при наведении мышкой, перейти к FASTA-последовательности из RefSeq/GenBank и проводить BLAST для отмеченных (а маркеры можно ставить вручную) участков, что во многих случаях очень удобно.

Name: RNA-seq exon coverage, aggregate (filtered), NCBI Homo sapiens Annotation Release 109
Comment: Exon coverage of RNA-seq alignments, filtered to remove low 
abundance alignments and some apparent retained-intron alignments near 
splice junctions and scaled with a linear scaled transform.
Name: RNA-seq intron-spanning reads, aggregate (filtered), NCBI Homo sapiens Annotation Release 109
Comment: Coverage of introns derived from spliced RNA-seq alignments, 
filtered to remove low abundance alignments and some apparent retained-intron 
alignments near splice junctions and scaled with a linear scaled transform.
TERT in GDV
Рисунок 5. Ген TERT в Genome Data View