EMBOSS

Программа getorf пакета EMBOSS

Была получена запись D89965 банка EMBL. Для поиска всех рамок считывания, удовлетворяющим следующим параметрам: была выполнена следующая команда:

getorf -sequence embl:d89965 -minsize 30 -find 1 -table 0


Был получен файл выдачи, в котором пятая запись соответствовала по координатам приведенной в поле FT CDS последовательности (из файла, полученного в самом начале задания). Эта запись ссылалась на запись из банка Swiss-Prot. Что удивительно, наблюдалось расхождение в организмах, откуда был получена последовательность описываемой рамки считывания. Запись EMBL утверждала, что последовательность кодирует белок серой крысы Rattus norvegicus, тогда как запись в Swiss-Prot была помечена как содержащая белок E.coli. Данная несуразица может иметь следующее объяснение. Банк данных EMBL имеет непосредственную связь с данными GenBank, куда кладутся отсеквенированные последовательности добытые разными людьми из разных лабораторий. Вероятно, некогда одна группа людей изучала белок X. Его гомологов пытались найти в различных организмах, причем отбор производился по каким-то физико-химическим характеристикам (например - количество зарядов, их локализация), и эти параметры оказались не очень специфичными для данного белка. Вышло так, что в секвенатор вместе с ДНК крысы попала также ДНК E.coli, которая при сборке генома заняла свое место в геноме крысы (ну, точнее - не свое). На одной из цепей этого участка ДНК находился нормальный ген E.coli, а на другой случайно оказалась открытая рамка считывания, подходящая под критерии для этого белка X. После того, как запись положили в EMBL, аннотаторы заметили ошибку и сделали ссылку на привильную запись этой последовательности. Однако не нащлось доброго человека, который бы исправил саму ошибочную запись - вот и лежит она там по сей день, попутно предоставляя возможность выполнения одного из практикумов по биоинформатике.

Файлы-списки

В данном задании последовательностью команд были выполнены следующие шаги: и получен конечный файл.

EnsEMBL

Для начала была получена последовательность гена белка человека bms1. После того последовательность гена искалась в человеческом геноме сервисом BLAST/BLAT.
На странице выдачи были представлены схемы хромосом с стрелочками, указывющими на участки, частично сходные с геном bms1. Один из участком обведен в рамочку - это основной результат поиска. На странице мы также видим несколько строк, в каждой из которых приведены сведения по выравниванию отдельного кусочка гена с лучшими найденными хитами. Осталось неясным, почему цельный ген человека не находится в геноме человека полностью; или хотя бы почему пересекающиеся кусочки, находящиеся на одной хромосоме, не объединены вместе?
Сведения по выравниванию можно форматировать, не только "включая" и "выключая" их показ, но и меняя тип информации по своему умотрению. Переход по ссылке "Contig view", обозначенной маленькой буквой "C" левее первой находки позволяет нам взглянуть на участок хромосомы ближе. Недаром страница называется "Region in detail". Здесь есть информация об транскриптах РНК и РНК генах, о находящихся на последовательности псевдогенах, и об участках, кодирующих белок. И многом другом.
Большая часть информации, показываемая на этой странице, интерактивна - они позволяют использовать ссылки ипроходить по ним, в свою очередь получаю больше информации о каждой детали. Приятно отметить, что многое сделано для удобства пользователей - отинтерактивных ссылок до возможности настроить разрешение картинки, приблизить или отдалить ее или даже экспортировать ее как файл или сохранить в "личный кабинет".





© Elizaveta Besedina, FBB 2012
lizaveta@kodomo.fbb.msu.ru