EMBOSS

getorf

Файл с записью D89965 из банка EMBL был создан командой:
entret embl:d89965
Эта запись содержит последовательность мРНК из желудка Rattus norvegicus. Затем был получен список открытых рамок считывания данной последовательности, начинающихся со старт-кодона, заканчивающихся стоп-кодоном и длинной не менее 30 нуклеотидов Для этого применялась команда getorf.
getorf -minsize 30 -table 0 -find 1 d89965.entret
Из полученных рамок пятая полностью соответсвует CDS записи.
Запиcь D89965 EMBL ссылается на запись P0A7B8 в SwissProt, эта запись была получена командой:
entret sw:p0a7b8
Как ни странно, это запись о гене бактерии E. coli (HSLV_BACSU). К тому же, он полностью совпадает с одной из рамок считывания записи EMBL, что видно из выравнивания:
HSLV_ECOLI      MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL
D89965_9        ---------------------------MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL
                                           *********************************

HSLV_ECOLI      FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL
D89965_9        FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL
                ************************************************************

HSLV_ECOLI      IAIGSGGPYAQAAARALLENTELSAREIAEKALDIAGDICIYTNHFHTIEELSYKA
D89965_9        IAIGS---------------------------------------------------
                *****     
Такой ситуации есть объяснение. Скорее всего, дело в том, что при сиквенировании последовательностей R. norvegicus была допущена ошибка (E. coli обитает в пищевариетлном тракте млекопитающих и могла попасть в желудок). Банк EMBL - архивный, и в нем сохраняются все результаты, а в SwissProt - только проверенные. Поэтому EMBL, может сохранять ошибочные данные, отсылаясь на их исправленный вариант в другой базе данных.

Файлы-списки

C помощью команды seqret был получен файл со всеми последовательностями алкогольдегидрогеназ, содержащихся в SwissProt.
seqret sw:adh*_*
Затем из этого файла командой infoseq был получен файл, соедржащий USA для всех этих последовательностей. Этот файл является файлом-списком (листфайлом).
infoseq -only -usa adh.fasta
Затем командой grep был получен более узкий список, состоящий из нескольких заданных организмов.
grep adh.txt -f organisms.txt >> usa_narrow.txt
В итоге, командой seqret был получен файл, содержащий последовательности алкогольдегидрогеназ выбранных организмов.
seqret @usa_narrow.txt sequences.fasta

EnsEMBL

В EnsEMBL был проведен поиск человеческого белка MVP. Результатом поиска является информация о гене, его длине, координатах, ссылки на другие базы данных, а также изображения окрестности гена (в разделе Region in details).

Рис. 1. Расположение гена MVP в 16-ой хромосоме.
Рис. 2. Экзон-интронная организация гена MVP из раздела Region in details.

С помощью функции Export data была получена последовательность гена в формате fasta. Затем с помощью установленной на EnsEMBL программы BLAST/BLAT был проведен поиск в геноме человека.

Рис. 3. Расположение результатов поиска BLAT в кариотипе человека.Рис. 4. Покрытие запроса хитами

Со страницы со списком хитов можно перейти по ссылки Contig view (C) и попасть снова в раздел Region in details. Такая ссылка есть у каждого хита, кроме того у каждого хита есть еще 2 ссылки: на выравнивание (A) и ни экзонную разметку хита (G).

Вообще сайт EnsEMBL многофункционален, например, он может строить генетические деревья (правда, только среди хордовых):

Рис. 5. Генетическое дерево белка MVP.

Также сайт предоставляет данные о мутациях, белковых семействах, регуляции генов, вариантах сплайсинга, генетической изменчивости etc. Для примера приведу таблицу генетической изменчивости MVP.

Рис. 6. Таблица генетической изменчивости гена MVP, указаны разные типы изменчивости, их встречаемость у MVP и расшифровка.

Главная страница Первый семестр Второй семестр Третий семестр Обо мне Ссылки

© Марк Меерсон, 2013
Последнее обновление 09.12.2013