Вернуться на страницу семестров

Emboss

Задание 1. Программа getorf пакета EMBOSS

Получил файл с ID D89965 из банка EMBL, необходимо получить файл содержащий октрытые рамки считывания этой последовательности, причем с определенными опциями: 1) длина не менее 30-и аминокислотных остатков(не менее 90 нуклеотидов), 2) начинается старт-кодоном и кончается стоп-кодоном, ниже приведены команды и полученный файл.

Ссылка на файл, содержащий 5 открытых рамок считывания

Сравнивая последовательности, легко заметить, что 3-ья открытая рамка считывания с координатами (163 - 432) полностью соответствует кодирующей последовательности с координатами (163 - 435), несмотря на разницу в длине на 3 нуклеотида.

Эта запись Embl ссылается на запись SwissProt P0A7B8

FT                   /db_xref="UniProtKB/Swiss-Prot:P0A7B8"

Вытащил эту запись: seqret sw:P0A7B8.fasta ссылка ниже:
Ссылка на P0A7B8.fasta

Чтобы выяснить, какой из полученных ранее открытых рамок считывания соответствует последовательность P0A7B8.fasta, можно воспользоваться программой blastp, командой:
blastp -query P0A7B8.fasta -subject d89965.orf -evalue 0.01 -outfmt 6 -out file_blastp.out
Ссылка на полученный файл, в котором видно, что это рамка считывания №5. Противоречие!

Вывод(отчасти пишу то, что обсуждалось на семинаре): последовательность P0A7B8 из банка Swiss-Prot имеет неправильную аннотацию из-за того ученые сделали ошибку в своем эксперименте. Ученые искали нужные им свойства белка в эпителиальных клетках крысы (конкретно мРНК), этот препарат отсеквенировали, НО в препарате оказались также E.coli, что неудивительно, поскольку была взята именно ткань желудка. Третья рамка крысы оказалась некодирующей, а вот на пятой рамке E.coli закодирован этот белок. Авторы проанотировали белок неправильно, следует отметить, что такие ошибки редки.

Задание 2. Файлы-списки.

С помощью программ пакета EMBOSS:
Скачайте в файл adh.fasta в fasta-формате все доступные в Swissprot последовательности алкогольдегидрогеназ: их идентификаторы описываются выражением adh*_*.
Получите файл с универсальными адресами (USA) этих последовательностей: используйте программу infoseq с параметрами -only и -usa. То, что получится – пример файла-списка ("листфайла").
Получите из этого файла-списка другой, меньший, с адресами только тех последовательностей, которые взяты из ваших организмов. Используйте программу grep с параметром -f, чтобы подать ей на вход список слов для поиска.
На основе нового файла-списка получите fasta-файл с последовательностями дегидрогеназ ваших организмов.
Используйте программу seqret

Полученный файл.

Задание 3. EnsEMBL

Произвел поиск белка, выбранного в Onlain Blast, нашел информацию об этом белке: