Задание 1. Программа getorf пакета EMBOSS.
Используя команду entret, получаем файл с записью D89965 банка EMBL.
Далее необходимо получить набор трансляций всех открытых рамок данной последовательности, длина которых не менее 30 аминокислотных остатков и которые начинаются со старт-кодона и заканчиваются стоп-кодоном. Для этого выполняем следующую команду:
getorf d89965.entret -table 0 -minsize 90 -find 1
Получили файл d89965.orf. Из найденных рамок третья соответствует приведенной в поле FT кодирующей последовательности:
>D89965_3 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
AVTAYAYYSCHELTPWLRIQSTNPVQKYGA
Данная запись EMBL ссылается на последовательность P0A7B8. Получаем последовательность этой записи.
Это запись белка кишечной палочки HSLV_ECOLI. Она соответствует пятой открытой рамке считывания из найденных:
P0A7B8
MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL
FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL
IAIGSGGPYAQAAARALLENTELSAREIAEKALDIAGDICIYTNHFHTIEELSYKA
Запись D89965 банка EMBL относится к серой крысе. Вероятно, во время секвенирования генома крысы произошла контаминация кишечной палочкой, в результате чего участок, принадлежащий кишечной палочке, был ошибочно принят за крысинный.
Задание 2. Файлы-списки.
В файл adh.fasta скачиваем в fasta-формате все доступные в Swissprot последовательности алкогольдегидрогеназ:
seqret sw:adh*_* adh.fasta
Получаем файл с универсальными адресами (USA) этих последовательностей:
infoseq adh.fasta -usa -only > adh.infoseq
Из этого файла-списка получаем другой, меньший, с адресами только тех последовательностей, которые взяты из моих организмов:
grep -f organisms.txt adh.infoseq > adh_organisms.infoseq
На основе нового файла-списка получаем fasta-файл с последовательностями дегидрогеназ заданных организмов:
seqret @adh_organisms.infoseq adh_organisms.fasta
Задание 3. EnsEMBL.
Портал EnsEMBL предназначен для визуализации известной информации о геномах человека и животных. Для начала поищем информацию о гене человека LAR4B_HUMAN.
Получаем последовательность всего гена, кодирующего данный белок.
Здесь можно найти множество информации, например, об экспрессии данного гена в различных тканях:

Или о регуляции экспрессии гена:

С помощью сервиса "BLAST/BLAT" находим ген в человеческом геноме.
Здесь можно увидеть, где именно (на какой хромосоме) располагается данный ген:

В разделе Alignment Locations vs. Query графически представлена информация о полученном выравнивании:

В разделе Contig view (обозначен маленькой буквой "C") можно рассмотреть участок генома, расположенные на нем гены с их интронами и экзонами.



В данном разделе можно получать изображение любого интересующего фрагмента в различных форматах и масштабе.