EnsEMBL
Для выполнения работы про EMBL мне был выдан мой же собственный (в том числе) ген G6C. Выполним в EnsEMBL поиск на странице «BLAST/BLAT».
Что можно понять со страницы результатов? Этот сервис позволяет показывать сразу несколько выравниваний, по умолчанию показывая 100 (но нашлось все равно только одно). Сортировка возможна по raw score (числу, которое является необработанным результатом работы алгоритма выравнивания); E-value и P-value (количество и вероятность встретить заданную последовательность в рандомизированном банке такого же размера, соответственно); длине выравнивания; проценту совпавших нуклеотидов. BLAT — алгоритм, похожий на BLAST, он не такой настраиваемый (и требует почти точного совпадения последовательностей для их нахождения), зато заметно быстрее, и поэтому используется по умолчанию.
Далее следует хромосомная карта, где показано расположение найденного выравниванием кусочка. В следующей области должны отображаться границы различных выравниваний относительно запроса, однако сейчас она малоинформативна, ведь выравнивание лишь одно. Красным обозначаются HSP — high-scoring (segment) pairs, участки абсолютно точного совпадения, идея наличия которых в практически каждом биологически осмысленном выравнивании лежит в основе работы алгоритма BLAST и его родственников (в том числе BLAT). Здесь всё выравнивание — один такой сплошной участок, поскольку задан фрагмент точной последовательности.
Далее следует, как обычно, настраиваемый список найденных выравниваний с их параметрами. Около каждого выравнивания отображаются несколько ссылок: [A] ведет на само выравнивание последовательностей; [G] показывает положение найденного участка в контексте генома (с настраиваемыми параметрами); [C] ведет на Contig View, который нам предлагается исследовать.
Contig View представляет собой типичное представление геномного браузера: последовательность и под ним несколько треков, или дорожек. Оно состоит из трех областей: сверху показан очень большой фрагмент хромосомы, выделенный в нем небольшой участок (в моем случае около 1 миллиона пар оснований) подробнее показан ниже, и в этом представлении в свою очередь выделен короткий участок (в моем случае 4 тысячи пар оснований), показанный подробно еще ниже. Поскольку с верхними двумя представлениями всё понятно, изучим подробнее именно нижнюю область.
Первый трек сразу под последовательностью (в расположении по умолчанию) называется «assembly exceptions», или «особенности (исключения) сборки». В описании указано, что судя входят различные патчи, псевдоаутосомные области и др. Вторая строка называется «chromosome bands». Точного перевода я не нашел, но вообще это макрорегионы хромосом. Третья строка показывает участки консервативности, установленные путем анализа геномов 36 млекопитающих. Четвертая строка: cDNA (комплементарные ДНК) человека. За этим пятой большой строкой следуют известные гены. Далее следует строка «контиги», и все повторяется зеркально для обратной цепи. Как и в других современных геномных браузерах, на выбор предлагается еще огромное множество различных треков. Сдвиг и масштабирование последовательности реализованы, на мой взгляд, довольно неудачно: работать с этим геномным браузером мне показалось не очень удобным.
Попытаемся найти ген по названию. Это оказалось очень просто: в поиске на главной странице выбираем Human, на странице с результатами выбираем тип Gene, получаем необходимое.
Другие геномные браузеры
Немного разочаровавшись дизайном и функционалом EnsEMBL, попробуем теперь испробовать геномный браузер USCS. Надо сказать, что этот — мой любимый. Намного лучше, чем в EnsEMBL, реализована навигация. Всё, что можно, настраивается. Разница в представлении, например, в том, что в EnsEMBL используется цвет, а в USCS — черные прямоугольнички и стрелочки. Последнее мне нравится больше.
В общем, геномные браузеры — это круто, они позволяют проводить точный анализ разных вещей, которые требуют наглядного сравнения, можно загружать в них собственные данные и добавлять новые дорожки, и всё такое прочее. Короче, не знаю я, что писать и делать в задании без конкретных требований, свою задачу я выполнил — с геномными браузерами вполне разобрался :-)