EMBOSS
getorf
Файл с записью D89965 из банка EMBL был создан командой: entret embl:d89965
Эта запись содержит последовательность мРНК из желудка Rattus norvegicus. Затем был получен список открытых рамок считывания данной последовательности, начинающихся со старт-кодона, заканчивающихся стоп-кодоном и длинной не менее 30 нуклеотидов
Для этого применялась команда getorf. getorf -minsize 30 -table 0 -find 1 d89965.entret
Из полученных рамок пятая полностью соответсвует CDS записи.
Запиcь D89965 EMBL ссылается на запись P0A7B8 в SwissProt, эта запись была получена командой:entret sw:p0a7b8
Как ни странно, это запись о гене бактерии E. coli (HSLV_BACSU). К тому же, он полностью совпадает с одной из рамок считывания записи EMBL, что видно из выравнивания:
HSLV_ECOLI MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL
D89965_9 ---------------------------MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL
*********************************
HSLV_ECOLI FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL
D89965_9 FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL
************************************************************
HSLV_ECOLI IAIGSGGPYAQAAARALLENTELSAREIAEKALDIAGDICIYTNHFHTIEELSYKA
D89965_9 IAIGS---------------------------------------------------
*****
Такой ситуации есть объяснение. Скорее всего, дело в том, что при сиквенировании последовательностей R. norvegicus была допущена ошибка (E. coli обитает в пищевариетлном тракте млекопитающих и могла попасть в желудок).
Банк EMBL - архивный, и в нем сохраняются все результаты, а в SwissProt - только проверенные. Поэтому EMBL, может сохранять ошибочные данные, отсылаясь на их исправленный вариант в другой базе данных.
Файлы-списки
C помощью команды seqret был получен файл со всеми последовательностями алкогольдегидрогеназ, содержащихся в SwissProt.
seqret sw:adh*_*
Затем из этого файла командой infoseq был получен файл, соедржащий USA для всех этих последовательностей. Этот файл является файлом-списком (листфайлом).
infoseq -only -usa adh.fasta
Затем командой grep был получен более узкий список, состоящий из нескольких заданных организмов.
grep adh.txt -f organisms.txt >> usa_narrow.txt
В итоге, командой seqret был получен файл, содержащий последовательности алкогольдегидрогеназ выбранных организмов.
seqret @usa_narrow.txt sequences.fasta
EnsEMBL
В EnsEMBL был проведен поиск человеческого белка MVP. Результатом поиска является информация о гене, его длине, координатах, ссылки на другие базы данных, а также изображения окрестности гена (в разделе Region in details).
 |
Рис. 1. Расположение гена MVP в 16-ой хромосоме. |
 |
Рис. 2. Экзон-интронная организация гена MVP из раздела Region in details. |
С помощью функции Export data была получена последовательность гена в формате fasta. Затем с помощью установленной на EnsEMBL программы BLAST/BLAT был проведен поиск в геноме человека.
 |  |
Рис. 3. Расположение результатов поиска BLAT в кариотипе человека. | Рис. 4. Покрытие запроса хитами |
Со страницы со списком хитов можно перейти по ссылки Contig view (C) и попасть снова в раздел Region in details. Такая ссылка есть у каждого хита, кроме того у каждого хита есть еще 2 ссылки: на выравнивание (A) и ни экзонную разметку хита (G).
Вообще сайт EnsEMBL многофункционален, например, он может строить генетические деревья (правда, только среди хордовых):
 | Рис. 5. Генетическое дерево белка MVP. |
Также сайт предоставляет данные о мутациях, белковых семействах, регуляции генов, вариантах сплайсинга, генетической изменчивости etc.
Для примера приведу таблицу генетической изменчивости MVP.
 | Рис. 6. Таблица генетической изменчивости гена MVP, указаны разные типы изменчивости, их встречаемость у MVP и расшифровка. |
© Марк Меерсон, 2013
Последнее обновление 09.12.2013