Учебный сайт Софроновой Алины |
Программа getorf пакета EMBOSS         Используя команду entret пакета EMBOSS, я получила файл d89965.entret с записью D89965 банка EMBL.
В файле содержиться последовательность мРНК из тканей желудка самца серой крысы Rattus norvegicus. Последовательность состоит из 448 нуклеотидов, причем кодирующий участок имеет кооринаты 163..435. Это ген (Rat Stomach Serotonin receptor-related gene) кодирует белок RSS.
Используя другую программу пакета EMBOSS getorf, я получила набор трансляций всех открытых рамок данной последовательности, которые одновременно: Опцию -table 0 указывать было не обязательно, так как 0 - стандартное значения для данного парметра.
Начальные координаты совпали (163), а конечные отличаются на 3.         Данная запись EMBL ссылается на файл с записью P0A7B8 базы данных Swiss-Prot. Используя команду entret, я получила этот файл hslv_ecoli.entret. Для облегчения поиска открытой рамки считывания я запустила программу needle, указав в качестве первого входа адрес соответствующей последовательности из Swiss-Prot, а в качестве второй – выдачу getorf (программа needle, если получает в качестве одного из входов ни одну, а множество последовательностей, выполняет все возможные парные выравнивания).
Итоговая команда needle -aformat3 sw:P0A7B8 d89965.orf. Получен файл hslv_ecoli.needle. Подошла 5 рамка считывания.
        Запись P0A7B8 банка Swiss-Prot содержит последовательность белка кишечной палочки Escherichia coli, в то же время файл с записью D89965 банка EMBL относится к мРНК серой крысы. Когда ученые секвенировали мРНК крысы, они случайно просеквенировали ген кишечной палочки, которая, скорее всего, содержалась в тканях желудка млекопитающего.
        Используя команду seqret sw:adh*_* adh.fasta , я получила файл adh.fasta, который состоит из всех доступных в Swiss-Prot последовательностей алкогольдегидрогеназ. Команда infoseq - программа, которая отображает на экране основную информацию об одной или нескольких последовательностей. Для того, чтобы получить файл с универсальными адресами (USA) этих последовательностей мне необходимы такие параметры, как -only (показывает только те параметры, какие мы укажем) и -usa (покажет USA каждой последовательности). Так же нам потребуется параметр -outfile, необходимый для записи всех USA в файл. Итоговая команда infoseq adh.fasta -only -usa -outfile listfile.txt. Получен файл listfile.txt – пример файла-списка. Из полученного списка мне необходимы лишь некоторые организмы: COTJA, BACOL, RAT, DROIM, PELPE, DROSE, SOLLC. Чтобы выделить только их USA я воспользовалась командой grep -f - ищет образец в файле. Данная команда работает только с файлами в виде образца, поэтому я создала новый список с названиями моих организмов. Я выполнила команду grep -f list.txt listfile.txt > listfile2.txt. Но просмотрев файл, оказалось, что в нем содержался и организм ARATH. Чтобы избавиться от лишних строк, я изменила в файле со списком своих животных RAT на RAT$ - символ $ соответствует концу строки. Итоговый файл listfile2.txt. Fasta-файл listfile2.fasta с последовательностями дегидрогеназ моих организмов получен командой seqret @lifelist2.txt lifelist2.fasta.         Для оценки достоверности выравнивания стандартный прием использовать сравнение со случайной моделью. Таким образом была проведена оценка достоверности вывода о гомологии последовательностей алкогольдегидрогеназ организмов Solanum lycopersicum(томат) - SOLLC.fasta и Drosophila sechellia - DROSE.fasta. Для этого с помощью программы shuffleseq (считывает одну или несколько последовательностей, и записывает их снова в случайном (перетасованном) порядке) были получены 100 случайных перемешиваний последовательности алкогольдегидрогеназы Solanum lycopersicum. Выполненная при этом команда shuffleseq -shuffle 100 SOLLC.fasta adh2_sollc.fasta, полученный файл - adh2_sollc.fasta. С помощью программы water пакета EMBOSS я сделала парные локальные выравнивания последовательности дрозофиллы с исходной (неперемешанной) первой и с каждой из 100 перемешанных последовательностей. Парное выравнивание полученное из истинных последовательностей двух организмов лежит в файле adh.water. Файл с выравниваниями сотни перемешенных последовательностей можно просмотреть здесь. При помощи данного скрипта я получила файл, в котором содержится вес каждого парного выравнивания. Вес реального выравнивания 54. C помощью MS Excel построена гистограмма распределения весов 101-го парного выравнивания (Рис.1.). Рис.1.Гистограмма распределения весов выравниваний аминокислотной последовательности алкогольдегидрогеназы Drosophila sechellia с реальной и с сотней перемешанных последовательностей алькогольдегидрогеназы Solanum lycopersicum. Оранжевым отмечен столбик (52,5 -55), в который входит вес реальных последовательностей (54). Гистограмма получена с помощью программы MS Excel.         Вес выравнивания реальных последовательностей находиться в диапозоне 52,5 - 55. В этом столбике находятся 8 (включая настоящую) последовательностей. Значение данного диапазона не так сильно отстоит от среднего. В данном случае нельзя говорить о достоверной гомологии, но и отрицать ее полностью тоже нельзя. Рис.2.Гистограмма распределения весов выравниваний нуклеотидной последовательности алкогольдегидрогеназы Drosophila sechellia с реальной и с сотней перемешанных последовательностей алькогольдегидрогеназы Solanum lycopersicum. Оранжевым отмечен столбик (675-687,5), в который входит вес реальных последовательностей (680). Гистограмма получена с помощью программы MS Excel.         Вес выравнивания для реальных нуклеотидных последовательностей 680, что входит в диапазон 675-687,5. В этом столбике всего 3 (включая реальную) последовательности. Значение диапазона довольно сильно различается с наиболее вероятным весом. Можно считать, что последовательности гомологичны. Вернуться к 3 семестру |
© Алина Софронова, 2014 Дата последнего изменения: 20.10.2014 |