A picture of DNA should be here

EMBOSS

В первом заданиии было необходимо исследовать белок, запись о последовательность которого имеет идентификатор D89965 банка EMBL. Для получения записи я воспользовалась следующей командой.

entret embl:D89965

Это запись последовательности РНК серой крысы (Rattus Norvegicus) , длиной в 448 нуклеотидов. Ген, с которого произошло считывание РНК имеет коодинаты 163..435, кодирует белок, задействованной в передаче сигнала от рецептора серотонина в желудке крысы.

С помощью коамнды getorf пакета EMBOSS, был получен набор трансляций всех открытых рамок данной последовательности, которые одновременно: определены при использовании стандартного генетического кода, имеют длину не менее 30 аминокислотных остатков, начинаются со старт-кодона и заканчиваются стоп-кодоном.

getorf -sequence d89965.entret -outseq d89965.orf -table 0 -minsize 90 -find 1

В точности с исходной аминокислотной последовательностью совпадает третья рамка считывания.

>D89965_3 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
AVTAYAYYSCHELTPWLRIQSTNPVQKYGA

Запись EMBL ссылается на запись Swiss-Prot с id P0A7B8. С помощью команды entret sw:P0A7B8 был получен файл hslv_ecoli.entret с записью исследуемого белка в базе данных Swiss-Prot. Интересно, что полученная запись содержит белок теплового шока бактерии Echerichia Coli и приведенная там последовательность не совпадает с указанной в исходном файле d89965.entret, но полностью вмещает в себя последовательность пятой рамки считывания в файле d89965.orf (>D89965_5).

Я предполагаю, что возможно было загрязнение образца при секвенировании. Это возможно, так как бактерия E.coli обитает в нижней части кишечника, а исследовался белок, находящийся в желудке крысы.

В задании 2 необходимо было получить на выходе файл с последовательностями алкогольдегидрогеназ следующих организмов:

ZAPTU
NAJNA
PEA
GEOSE
AMYME
DROMU
METTH

Я воспользовалась следующими командами пакета EMBOSS

seqret sw:adh*_* adh.fasta  
infoseq sw:adh*_* -only -usa > adh_listfile
 grep -f 'find' 'adh_listfile' > adh_match
seqret @adh_match adh_match_seq.fasta

Файлы, полученные на всех промежуточных стадиях: adh.fasta, adh_listfile, adh_match, adh_match_seq.fasta (выходной файл).

Задание 3

В задании три требовалось построить случайную модель для оценки достоверности выравнивания. Я выбрала последовательности ADH_ZAPTU (Zaprionus tuberculatus или еще имеющее тривиальное название Vinegar fly ) и ADHS_METTH (из организма Methanothermobacter thermautotrophicus). Для этого необходимо сначала перемешать случайным образом последовательность ADHS_METTH, построить выравнивания белка ADH_ZAPTU и полученных перемешанных последовательностей и сравнить с исследуемым выравниванием ADH_ZAPTU и ADHS_METTH. Я воспользовалась следующими командами пакета EMBOSS:

shuffleseq -shuffle 100 sw:ADHS_METTH metth_shuffle.fasta
water sw:ADH_ZAPTU sw:ADHS_METTH
water sw:ADH_ZAPTU metth_shuffle.fasta

Для построения гистограммы я сначала воспользовалось командами:

grep Score zaptu_metth_align.water > scores
grep Score zaptu_shuffle_align.water >> scores

Промежуточные файлы доступны здесь: zaptu_metth_align.water, zaptu_shuffle_align.water, scores.

Получив таким образом файл с весами каждого выравнивания. Гистограмма распределения весов выравнивания приведена ниже. Фиолетовыми столбцами обозначено распределение весов выравниваний белка ADH_ZAPTU и 100 последовательностей, получившихся при случайном перемещиании последовательности ADHS_METTH, красным столбцом отмечен вес выравнивания этих двух последовательностей. Вес неперемешанной последовательности оказался в правой части гистограммы, но было бы неправильно делать какой-либо вывод о гомологичности данных белков, т.к. для любых выводов, основанных на выравнивании, необхлдимо еще несколько параметров, например e value.

Рис. 1. Гистограмма распределения весов выравнивания