Учебный сайт Валяевой Анны

EMBOSS

Программа getorf пакета EMBOSS

С помощью команды entret был получен файл с записью D89965 банка EMBL, в котором содержится информация о мРНК гена, связанного с серотониновым рецептором, и продуктом которого является RSS, из желудка Серой крысы (Rattus norvegicus). Далее с помощью программы getorf был получен набор трансляций всех открытых рамок данной последовательности с заданными параметрами. Из найденных открытых рамок пятая (D89965_5) наиболее соответствует той последовательности, что приведена в записи об мРНК. При этом стоит отметить, что программа getorf, по-видимому, не учитывает стоп-кодон в длине нуклеотидной последовательности. Затем был получен файл записи SwissProt, на которую ссылается запись EMBL. Оказалось, что полученная запись содержит последовательность белка теплового шока E.coli. Последовательность белка теплового шока наиболее соотвествует последней из найденных открытых рамок считывания (D89965_9), которая находится на обратной цепи. Вероятно, то, что запись об мРНК из желудка Серой крысы ссылается на белок E.coli, является ошибкой авторов записи, при этом такие противоречивые данные могли появтиться из-за неаккуратности при получении образцов ткани желудка Серой крысы.

Использованные при работе команды приведены ниже:

entret embl:D89965
getorf -table 0 -minsize 30 -find 1 embl:D89965
seqret sw:P0A7B8
needle hslv_ecoli.fasta d89965.orf

Файлы-списки

С помощью программ пакета EMBOSS был получен файл с последовательностями алкогольдегидрогеназ, доступными в Swiss-Prot. Затем с помощью программы infoseq были получены универсальные адреса (USA) этих последовательностей в файле-списке. Далее был получен файл-список USA заданных организмов. На основе полученного файла-списка был получен файл с последовательностями алкогольдегидрогеназ из заданных организмов.
Ниже приведены команды, с помощью которых все вышеперечисленное было осуществлено:

seqret sw:adh*_* adh.fasta
infoseq sw:adh*_* -only -usa > infoseq.fasta
fgrep pattern.fasta infoseq.fasta > listseq.fasta
seqret @listseq.fasta listadh.fasta

Случайная модель для оценки достоверности выравнивания

Для того, чтобы оценить гомологию двух выбранных алкогольдегидрогеназ, были сделаны выравнивание исходных последдовательностей этих двух белков (ADH1_GADMC и ADHI_RHOS4) и выравнивания одной исходной последовательности (ADH1_GADMC) и 100 случайно перемешанных последовательностей второй алкогольдегидрогеназы (ADHI_RHOS4). То есть было построено 100 и 1 локальное выравнивание с помощью программы water пакета EMBOSS. Использованные команды приведены ниже:

shuffleseq -shuffle 100 sw:ADHI_RHOS4 rhos4shuffle.fasta
water sw:ADH1_GADMC sw:ADHI_RHOS4
water sw:ADH1_GADMC rhos4shuffle.fasta
	  

Из полученных файлов при помощи скрипта на phython был получен список весов этих выравниваний, на основе которых была построена гистограмма распределения весов (рис. 1). Вес выравнивания настоящих последовательностей значительно отличется от перемешанных, что подтверждает гомологию двух белков.

Распределение весов выравниваний белковых последовательностей.

Рис. 1. Распределение весов выравниваний белковых последовательностей. Красным отмечено значение веса выравнивания настоящих последовательностей. Гистограмма получена в MS Excel.

Дата последнего обновления: 19.10.14
©Валяева Анна