Отчёт по практикуму 10

Геномные браузеры

Работаем с геномными браузерами UCSC (University of California Santa Cruz) и Ensembl.

UCSC

Нужно было выбрать ген, кодирующий белок человека, и найти о нём некоторую информацию. Я взял ген AZU1.

Характеристика гена приведена в таблице 1.

Таблица 1. Характеристика гена AZU1 по GENCODE
Полное имяazurocidin 1
Gencode IDENSG00000172232.10
Краткое имяAZU1
Цепьпрямая
Хромосомаchr19
Плечо, полосаp13.3
Координаты в хромосоме825097–832018
Число продуктов2
Gencode ID транскрипта 1ENST00000592205.5
Число экзонов для продукта 14
Число аминокислот
в последовательности продукта 1
150
Gencode ID транскрипта 2ENST00000233997.4
Число экзонов для продукта 25
Число аминокислот
в последовательности продукта 2
251

Для каждого транскрипта координаты были указаны отдельно (825097–832017 и 827837–832018), координаты гена были получены объединением промежутков.

Также получено изображение окрестности гена (при удалении масштаба 1.5x) с треками генов GENCODE и RefSeq (отображение full), а также данными о консервативности и полиморфизмами (отображение dense). — Оно приведено на  рис. 1.

первая проблема
Рисунок 1. Окрестность гена в браузере при отображении указанных треков.

Ensembl

Теперь выбранный ген выравнивается с ортологом из генома шимпанзе при помощи встроенных инструментов Ensembl.

Я выбрал нужный ген, вид (Chimpanzee). В выравнивании изменил настройки, удалив фланкирующие последовательности (Configure this page > выставил соответствующие значения на 0). Полученный файл экспортировал в файл *.fa.

Для оценки числа замен было вычислено отношение числа совпадающих нуклеотидов к общей длине последовательности гена шимпанзе и затем вычтено из единицы. Таким образом, из рассмотрения был исключён участок выравнивания длиной 198 нуклеотидов, где последовательность для шимпанзе неизвестна, как и гэпы в этом гене. Числа получены командой infoalign -only -seqlen -idcount -filter Human_Chimpanzee_lastz.msf -refseq 2.

Вычисляем ответ:

1 - 6442 / 6630 ≈ 2,84 %

Это более чем в 2 раза превосходит значение 1,23%, приведённое в статье The Chimpanzee Sequencing and Analysis Consortium (с. 69, первая страница статьи).

После работы с UCSC и Ensembl можно сказать, что у Ensembl более интуитивный интерфейс, по которому, например, проще разобраться в аннотациях GENCODE (и потом найти их в UCSC).