Учебный сайт Алены Корягиной

EMBOSS

Во многих предыдущих работах мы говорили: ''Мы использовали программу такую из пакета EMBOSS'', — а дальше описывали возможности и свойства программы. Но сейчас я хотела бы остановиться на том, что же такое на самом деле «пакет EMBOSS». EMBOSS (European Molecular Biology Open Software Suite) — это открытый и бесплатный пакет программного обеспечения, предназначенный специально для молекулярных биологов и биоинфооматиков. Это программное обеспечение работает с различными последовательностями и может воспринимать большое количество различных форматов, а также позволяет извлекать данные из интернета. В пакет программ EMBOSS входит множество программ, которые позволяют анализировать и обрабатывать белковые и нуклеотидные последовательности.

1. Программа getorf пакета EMBOSS

Ранее мы уже использовали некоторые программы из этого пакета: needle, water, entret, seqret и другие. В данной работы мы также будем работать с последними двумя программами, а также с некоторыми другими программами этого пакета.

С помощью программы entret, которая создает файл с полной записью по названию банка и идентификатору (ID) или номеру доступа (AC) записи, был получен файл «d89965.entret» с записью D89965 банка EMBL. Для этого использовалась следующая команда:

entret embl:D89965

В данной записи содержится последовательность мРНК, состоящая из 448 нуклеотидов и полученная из организма Rattus norvegicus (Серая крыса). Также в ней предсказан 1 закодированный белок RSS, кодирующая последовательность (CDS) которого имеет координаты 163..435. Предполагается, что этот белок связан с серотиновыми рецепторами в желудке крысы.

Для того чтобы разобраться с возможностями и свойствами программы getorf, было выведено подробное описание этой программы, используя программу tmf:

tmf getorf

Программа getorf извлекает из нуклеотидной последовательности открытые рамки считывания. И для того чтобы получить набор трансляций всех открытых рамок данной последовательности из записи D89965 , которые одновременно: определены при использовании стандартного генетического кода, имеют длину не менее 30 аминокислотных остатков, начинаются со старт-кодона (то есть с начала последовательности) и заканчиваются стоп-кодоном (до конца последовательности), была введена следующая команда:

getorf -table 0 -minsize 90 -find 1

В результате получили файл d89965.orf, содержащий 5 открытых рамок считывания, из которых третья частично соответствует приведённой в поле FT кодирующей последовательности (CDS):

>D89965_3 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
AVTAYAYYSCHELTPWLRIQSTNPVQKYGA

Соответсвие частичное, потому что координаты конца последовательности рамки считывания на 3 нуклиотида меньше, чем CDS. Такое различие связано с тем, что открытая рамка считывания не содержит стоп-кодона, длинна котрого как раз 3 нуклеотида.

Также в записи EMBL есть ссылка на идентификатор записи в банке Swiss-Prot — P0A7B8. Был получен файл с соответствующей записью в Swiss-Prot hslv_ecoli.entret:

entret sw:P0A7B8

Далее для того чтобы бы найти нужную рамку считывания, были построены парные выравнивания между последовательностью белка из SwissProt и пятью найденными рамками считывания с помощью программы needle:

needle sw:P0A7B8 d89965.orf -auto

В результате получили файл
hslv_ecoli.needle, в котором представлено 5 парных выравниваний, пятое из которых является наилучшим, а следовательно, 5 рамка считывания соответствует последовательности Swiss-Prot.

Обратим внимание, что запись P0A7B8 банка Swiss-Prot содержит последовательность белка бактерии Escherichia coli, тогда как последовательность соответствующей записи EMBL является последовательностью мРНК серой крысы. Возможно, исследуемая крыса была заражена кишечной палочкой, что привело к ошибке при секвенировании мРНК и исследователи, думая, что расшифровали ген крысы, на самом деле расшифровали ген кишечной палочки. И в последствии по ошибки включили его рамку считывания в последовательность мРНК крысы.

Файлы-списки

Сначала был получен файл со всеми доступными в SwissProt последовательностями алькогольдегидрогеназ. Для этого использовалась команда:

seqret sw:adh*_* adh.fasta

Затем из этого файла был получен файл-список, содержащий только USA всех алькогольгидрогеназ. Команда:

infoseq –only – usa adh.fasta > usa.fasta

Из полученного списка USA сделали меньший файл-список, содержащий только адреса организмов DROHY, GEOAT, THEBR, METM5, ASPFN, GEOKN, DROPU (файл, содержащий идентификаторы этих организмов см. здесь). Команда:

grep –f organism_list.fasta usa.fasta > org_usa.fasta

И в конце концов с помощью команды

seqret @org_usa.fasta org_seq.fasta

был получен файл с последовательностями алькогольгидрогеназ только из организмов c адресами DROHY, GEOAT, THEBR, METM5, ASPFN, GEOKN, DROPU.

Случайная модель для оценки достоверности выравнивания

Стандартным приемом для оценки гомологии последовательностей является оценка на основе веса их выравнивания в сравнении со случайной моделью.

Была проведена оценка гомологии между двумя алкогольгидрогеназами из неблизкородственных организмов, именно из бактерии Thermoanaerobacter brockii (THEBR) и млекопитающего из семейства североамериканских грызунов (Geomyidae) – Geomys knoxjonesi (GEOKN).

Был получен файл со 100 случайно перемешанными последовательностями алкогольгидрогеназы из бактерии. Для этого использовалась команда

shuffleseq shuffle -100 THEBR.fasta

Далее с помощью программы water пакета EMBOSS были построены локальные выравнивания последовательности алкогольгидрогеназы из млекопитающего с не перемешанной последовательностью из бактерии (см.здесь) и со 100 перемешанными последовательностями (см.здесь). А с помощью команды

grep ‘Score’ 100_align.fa > scores.txt

был получен файл с весами 100 выравниваний, а вес исходного выравнивания: 243. Затем с помощью Excel была получена гистограмма распределения весов (рис.1).

Рис.1. Гистограмма распределения весов выравниваний аминокислотной последовательности алкогольгидрогеназы из Geomys knoxjonesi со 100 перемешанными последовательностями алкогольгидрогеназы из Thermoanaerobacter brockii. Гистограмма получена с помощью программы Excel.

Все веса выравниваний алкогольгидрогеназы из Geomys knoxjonesi с перемешанными последовательностями из Thermoanaerobacter brockii расположены в диапазоне от 34 до 84, а вес выравнивания с нормальной, не перемешанной последовательностью равен 243. Из чего можно сделать вывод, что несмотря на то, что были взяты неродственные организмы, даже более того были взяты организмы из разных царств, мы уверенно можем утверждать, что рассматриваемые последовательности алкогольгидрогеназ гомологичны.

© Alyona Koryagina aakor@fbb.msu.ru

Дата последнего изменения: 22.12.2014