Учебный сайт Софроновой Алины
EMBOSS

Программа getorf пакета EMBOSS

        Используя команду entret пакета EMBOSS, я получила файл d89965.entret с записью D89965 банка EMBL. В файле содержиться последовательность мРНК из тканей желудка самца серой крысы Rattus norvegicus. Последовательность состоит из 448 нуклеотидов, причем кодирующий участок имеет кооринаты 163..435. Это ген (Rat Stomach Serotonin receptor-related gene) кодирует белок RSS. Используя другую программу пакета EMBOSS getorf, я получила набор трансляций всех открытых рамок данной последовательности, которые одновременно:
определены при использовании стандартного генетического кода,
имеют длину не менее 30 аминокислотных остатков,
начинаются со старт-кодона (то есть с начала последовательности) и заканчиваются стоп-кодоном (до конца последовательности).
        Для этого я воспользовалась дополнительными параметрами (Additional qualifiers) программы getorf. Для вызова описания параметров я ввела команду tfm getorf. Для использования генетического кода отвечает -table: значение 0 - стандартный код, 1-23 - альтернативные. За минимальный и максимальный размер открытой рамки считывания отвечают команды -minsize и -maxsize соответственно. -find отвечает за область считывания и выдает либо аминокислотную последовательность, либо нуклеотидную. Нам потребуется значение "1" этого параметра - область между старт- и стоп-кодоном. В итоге запись в командной строке выглядит так:

getorf -minsize 90 -table 0 -find 1 embl:d89965

Опцию -table 0 указывать было не обязательно, так как 0 - стандартное значения для данного парметра.
получился итоговый файл d89965.orf. Представленная ниже открытая рамка считывания частично соответствует кодирующей последовательности (CDS):

 
>D89965_3 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
AVTAYAYYSCHELTPWLRIQSTNPVQKYGA

Начальные координаты совпали (163), а конечные отличаются на 3.

        Данная запись EMBL ссылается на файл с записью P0A7B8 базы данных Swiss-Prot. Используя команду entret, я получила этот файл hslv_ecoli.entret. Для облегчения поиска открытой рамки считывания я запустила программу needle, указав в качестве первого входа адрес соответствующей последовательности из Swiss-Prot, а в качестве второй – выдачу getorf (программа needle, если получает в качестве одного из входов ни одну, а множество последовательностей, выполняет все возможные парные выравнивания). Итоговая команда needle -aformat3 sw:P0A7B8 d89965.orf. Получен файл hslv_ecoli.needle. Подошла 5 рамка считывания.

        Запись P0A7B8 банка Swiss-Prot содержит последовательность белка кишечной палочки Escherichia coli, в то же время файл с записью D89965 банка EMBL относится к мРНК серой крысы. Когда ученые секвенировали мРНК крысы, они случайно просеквенировали ген кишечной палочки, которая, скорее всего, содержалась в тканях желудка млекопитающего.

Файлы-списки

        Используя команду seqret sw:adh*_* adh.fasta , я получила файл adh.fasta, который состоит из всех доступных в Swiss-Prot последовательностей алкогольдегидрогеназ. Команда infoseq - программа, которая отображает на экране основную информацию об одной или нескольких последовательностей. Для того, чтобы получить файл с универсальными адресами (USA) этих последовательностей мне необходимы такие параметры, как -only (показывает только те параметры, какие мы укажем) и -usa (покажет USA каждой последовательности). Так же нам потребуется параметр -outfile, необходимый для записи всех USA в файл. Итоговая команда infoseq adh.fasta -only -usa -outfile listfile.txt. Получен файл listfile.txt – пример файла-списка. Из полученного списка мне необходимы лишь некоторые организмы: COTJA, BACOL, RAT, DROIM, PELPE, DROSE, SOLLC. Чтобы выделить только их USA я воспользовалась командой grep -f - ищет образец в файле. Данная команда работает только с файлами в виде образца, поэтому я создала новый список с названиями моих организмов. Я выполнила команду grep -f list.txt listfile.txt > listfile2.txt. Но просмотрев файл, оказалось, что в нем содержался и организм ARATH. Чтобы избавиться от лишних строк, я изменила в файле со списком своих животных RAT на RAT$ - символ $ соответствует концу строки. Итоговый файл listfile2.txt. Fasta-файл listfile2.fasta с последовательностями дегидрогеназ моих организмов получен командой seqret @lifelist2.txt lifelist2.fasta.

Случайная модель для оценки достоверности выравнивания

        Для оценки достоверности выравнивания стандартный прием использовать сравнение со случайной моделью. Таким образом была проведена оценка достоверности вывода о гомологии последовательностей алкогольдегидрогеназ организмов Solanum lycopersicum(томат) - SOLLC.fasta и Drosophila sechellia - DROSE.fasta. Для этого с помощью программы shuffleseq (считывает одну или несколько последовательностей, и записывает их снова в случайном (перетасованном) порядке) были получены 100 случайных перемешиваний последовательности алкогольдегидрогеназы Solanum lycopersicum. Выполненная при этом команда shuffleseq -shuffle 100 SOLLC.fasta adh2_sollc.fasta, полученный файл - adh2_sollc.fasta. С помощью программы water пакета EMBOSS я сделала парные локальные выравнивания последовательности дрозофиллы с исходной (неперемешанной) первой и с каждой из 100 перемешанных последовательностей. Парное выравнивание полученное из истинных последовательностей двух организмов лежит в файле adh.water. Файл с выравниваниями сотни перемешенных последовательностей можно просмотреть здесь. При помощи данного скрипта я получила файл, в котором содержится вес каждого парного выравнивания. Вес реального выравнивания 54. C помощью MS Excel построена гистограмма распределения весов 101-го парного выравнивания (Рис.1.).


Рис.1.Гистограмма распределения весов выравниваний аминокислотной последовательности алкогольдегидрогеназы Drosophila sechellia с реальной и с сотней перемешанных последовательностей алькогольдегидрогеназы Solanum lycopersicum. Оранжевым отмечен столбик (52,5 -55), в который входит вес реальных последовательностей (54). Гистограмма получена с помощью программы MS Excel.

        Вес выравнивания реальных последовательностей находиться в диапозоне 52,5 - 55. В этом столбике находятся 8 (включая настоящую) последовательностей. Значение данного диапазона не так сильно отстоит от среднего. В данном случае нельзя говорить о достоверной гомологии, но и отрицать ее полностью тоже нельзя.
        Те же действия были проделаны на нуклеотидных последовательностей. C помощью MS Excel построена гистограмма распределения весов 101-го парного выравнивания но уже для нуклеотидных последовательностей. (Рис.2.).


Рис.2.Гистограмма распределения весов выравниваний нуклеотидной последовательности алкогольдегидрогеназы Drosophila sechellia с реальной и с сотней перемешанных последовательностей алькогольдегидрогеназы Solanum lycopersicum. Оранжевым отмечен столбик (675-687,5), в который входит вес реальных последовательностей (680). Гистограмма получена с помощью программы MS Excel.

        Вес выравнивания для реальных нуклеотидных последовательностей 680, что входит в диапазон 675-687,5. В этом столбике всего 3 (включая реальную) последовательности. Значение диапазона довольно сильно различается с наиболее вероятным весом. Можно считать, что последовательности гомологичны.
По итогам двух гисторгамм получилось, что сравнивания аминокислотные последовательности алкогольдегидрогеназ, гомология прослеживается хуже, чем при сравнении соответствующих нуклеотидных последовательностей. Это наблюдается, так как вес выравнивания реальных (не перемешанных) аминокислотных последовательностей слабее отличается от получаемого по случайным причинам, чем вес выравнивания нуклеотидных последовательностей. Возможно, это объясняется тем, что:
1)при выравнивнивании нуклеотидной последовательности никак не учитывается триплетность генетического кода, поэтому шанс получить выравние с большим весом увеличивается, а значит вес реального выравнивания сильнее отстоит от веса выравнивания перемешанных;
2)в нуклеотидной последовательности встречается только 4 буквы, тогда как в аминокислотной 20, что усложняет построения выравнивания и вес реальной и перемешанных аминокислотных последовательностей близок.



Вернуться к 3 семестру

© Алина Софронова, 2014
Дата последнего изменения: 20.10.2014