Геномные браузеры
Работаем с геномными браузерами UCSC (University of California Santa Cruz) и Ensembl.
UCSC
Нужно было выбрать ген, кодирующий белок человека, и найти о нём некоторую информацию. Я взял ген AZU1.
Характеристика гена приведена в таблице 1.
Полное имя | azurocidin 1 |
---|---|
Gencode ID | ENSG00000172232.10 |
Краткое имя | AZU1 |
Цепь | прямая |
Хромосома | chr19 |
Плечо, полоса | p13.3 |
Координаты в хромосоме | 825097–832018 |
Число продуктов | 2 |
Gencode ID транскрипта 1 | ENST00000592205.5 |
Число экзонов для продукта 1 | 4 |
Число аминокислот в последовательности продукта 1 | 150 |
Gencode ID транскрипта 2 | ENST00000233997.4 |
Число экзонов для продукта 2 | 5 |
Число аминокислот в последовательности продукта 2 | 251 |
Для каждого транскрипта координаты были указаны отдельно (825097–832017 и 827837–832018), координаты гена были получены объединением промежутков.
Также получено изображение окрестности гена (при удалении масштаба 1.5x) с треками генов GENCODE и RefSeq (отображение full), а также данными о консервативности и полиморфизмами (отображение dense). — Оно приведено на рис. 1.
![первая проблема](gene_env.png)
Ensembl
Теперь выбранный ген выравнивается с ортологом из генома шимпанзе при помощи встроенных инструментов Ensembl.
Я выбрал нужный ген, вид (Chimpanzee). В выравнивании изменил настройки, удалив фланкирующие последовательности (Configure this page > выставил соответствующие значения на 0). Полученный файл экспортировал в файл *.fa.
Для оценки числа замен было вычислено отношение числа совпадающих нуклеотидов к общей длине последовательности гена шимпанзе и затем вычтено из единицы. Таким образом, из рассмотрения был исключён участок выравнивания длиной 198 нуклеотидов, где последовательность для шимпанзе неизвестна, как и гэпы в этом гене. Числа получены командой infoalign -only -seqlen -idcount -filter Human_Chimpanzee_lastz.msf -refseq 2.
Вычисляем ответ:
1 - 6442 / 6630 ≈ 2,84 %
Это более чем в 2 раза превосходит значение 1,23%, приведённое в статье The Chimpanzee Sequencing and Analysis Consortium (с. 69, первая страница статьи).
После работы с UCSC и Ensembl можно сказать, что у Ensembl более интуитивный интерфейс, по которому, например, проще разобраться в аннотациях GENCODE (и потом найти их в UCSC).