EMBOSS

Задание 1. Программа getorf пакета EMBOSS.

Используя команду entret, получаем файл с записью D89965 банка EMBL.
Далее необходимо получить набор трансляций всех открытых рамок данной последовательности, длина которых не менее 30 аминокислотных остатков и которые начинаются со старт-кодона и заканчиваются стоп-кодоном. Для этого выполняем следующую команду:
getorf d89965.entret -table 0 -minsize 90 -find 1

Получили файл d89965.orf. Из найденных рамок третья соответствует приведенной в поле FT кодирующей последовательности:
>D89965_3 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds. MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM AVTAYAYYSCHELTPWLRIQSTNPVQKYGA

Данная запись EMBL ссылается на последовательность P0A7B8. Получаем последовательность этой записи.
Это запись белка кишечной палочки HSLV_ECOLI. Она соответствует пятой открытой рамке считывания из найденных:
P0A7B8 MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL IAIGSGGPYAQAAARALLENTELSAREIAEKALDIAGDICIYTNHFHTIEELSYKA

Запись D89965 банка EMBL относится к серой крысе. Вероятно, во время секвенирования генома крысы произошла контаминация кишечной палочкой, в результате чего участок, принадлежащий кишечной палочке, был ошибочно принят за крысинный.

Задание 2. Файлы-списки.

В файл adh.fasta скачиваем в fasta-формате все доступные в Swissprot последовательности алкогольдегидрогеназ:
seqret sw:adh*_* adh.fasta

Получаем файл с универсальными адресами (USA) этих последовательностей:
infoseq adh.fasta -usa -only > adh.infoseq

Из этого файла-списка получаем другой, меньший, с адресами только тех последовательностей, которые взяты из моих организмов:
grep -f organisms.txt adh.infoseq > adh_organisms.infoseq

На основе нового файла-списка получаем fasta-файл с последовательностями дегидрогеназ заданных организмов:
seqret @adh_organisms.infoseq adh_organisms.fasta

Задание 3. EnsEMBL.

Портал EnsEMBL предназначен для визуализации известной информации о геномах человека и животных. Для начала поищем информацию о гене человека LAR4B_HUMAN.
Получаем последовательность всего гена, кодирующего данный белок.
Здесь можно найти множество информации, например, об экспрессии данного гена в различных тканях:


Или о регуляции экспрессии гена:


С помощью сервиса "BLAST/BLAT" находим ген в человеческом геноме.
Здесь можно увидеть, где именно (на какой хромосоме) располагается данный ген:


В разделе Alignment Locations vs. Query графически представлена информация о полученном выравнивании:


В разделе Contig view (обозначен маленькой буквой "C") можно рассмотреть участок генома, расположенные на нем гены с их интронами и экзонами.




В данном разделе можно получать изображение любого интересующего фрагмента в различных форматах и масштабе.


© Наталья Ланина
e-mail: n.lanina@fbb.msu.ru