EMBOSS


Программа getorf пакета EMBOSS

С помощью программы entret была получена запись D89965 банка EMBL. Был получен набор трансляций всех открытых рамок данной последовательности, которые определены при использовании стандартного кода и одновременно удовлетворяют следующим условиям:
длина не менее 30 аминокислотных остатков;
начинаются со старт-кодона (или начала последовательности) и заканчиваются стоп-кодоном (или концом последовательности).
Для этого использовалась программа getorf со следующими параметрами:

getorf -minsize 90 -table 0 -find 1

Третья из найденных открытых рамок соответствует (рамка короче на 3 нуклеотида) приведённой в поле FT кодирующей последовательности (CDS).
Данная запись EMBL ссылается на запись Swiss-prot P0A7B8. Эта последовательность соответствует пятой из полученных рамок.
В записи EMBL сказано, что данная последовательность принадлежит Rattus norvegicus, однако белок из записи Swiss-prot, на которую она ссылается, принадлежит E.Coli. Вероятно, это ошибка аннотации вызванная тем, что в процессе пробоподготовки эпителия желудка крысы к секвенированию, произошло загрязнение образца мРНК E.Coli.

Файлы-списки

Были скачаны в fasta-формате все доступные в Swissprot последовательности алкогольдегидрогеназ:

entret sw:adh*_* -out adh.fasta

Был получен файл с универсальными адресами (USA) этих последовательностей:

infoseq adh.fasta -only -usa -out listadh.txt

Из этого файла-списка был получен другой, меньший, с адресами только тех последовательностей, которые взяты из следующих организмов:

HUMAN
YEAST
BACOL
DROMN
DROTS
PAPHA
DRODI
GEOSE
DROIM
AQUAE
DROMA
DROPB
DROPS
UROHA
METJA
PELPE
DROMO
GEOAT
MOUSE
PONAB

Эти названия организмов были сохранены в отдельный файл organisms.txt и по ним осуществлялся поиск в списке уневерсальных адресов:

grep -f organisms.txt listadh.txt > outlist.txt

На основе нового файла-списка был получен fasta-файл с последовательностями дегидрогеназ данных организмов:

seqret @outlist.txt outseq.fasta

EnsEMBL

Портал EnsEMBL предназначен для визуализации известной информации о геномах человека и животных. С помощью команды seqret embl:M90357 была получена последовательность гена, кодирующего белок BTF3_HUMAN. По этой последовательности был произведен поиск с помощью программы BLAT на портале EnsEMBL. BLAT осуществляет поиск схожих последовательностей. В окне результатов поиска можно увидеть таблицу со списком полученных выравниваний с возможностью сортировки по различным параметрам (длина, ID, E-value etc.).



Рис.1. Список хитов BLAT.

На этой же странице отображено положение найденных хитов в хромосомах.



Рис.2. Положение хитов в хромосомах.

Также имеется изображение положения полученных хитов относительно исходной последовательности.



Рис.3. Положение хитов относительно исходной последовательности.

Если пройти по гиперссылке "Contig view", обозначенной маленькой буквой "C" левее находки в таблице хитов внизу страницы, откроется страница "Region in detail". Здесь можно увидеть интерактивное изображение положения выбранной последовательности на хромосоме. На этой же странице присутствует интерактивное изображение детального окуржения выбранного хита.



Рис.4. Положение выбранного хита на хромосоме и его детальное окружение.

Тут же имеется интерактивное изображение различных вариантов сплайсинга выбранной последовательности.



Рис.5. Варианты сплайсинга.