Личный сайт
Просвирова Кирилла

EMBOSS

Программа getorf пакета EMBOSS

C помощью entret из базы EMBL получен файл D89965.entret. В данной записи содержится мРНК длиной 448 нуклеотидов, содержащая участок с геном , кодирующим белок RSS серой крысы (Rattus norvegicus). Кодирующий участок последовательности (CDS) имеет координаты 163..435. Далее для получения открытых рамок считывания использовалась программа getorf пакета EMBOSS. Синтаксис запроса был следующий: getorf -minsize 90 -table 0 -find 1 embl:d89965. В итоге был получен файл : d89965.orf Приведенной в файле CDS частично соответствует третья открытая рамка считывания (D89965_3):

>D89965_3 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
AVTAYAYYSCHELTPWLRIQSTNPVQKYGA

Старт-кодоны совпадают (163), а вот ORF из файла длиннее на 3 нуклеотида, чем из d89965.orf. Видимо, это связано с тем, что getorf не учитывает стоп-кодон. Запись EMBL ссылается на запись Swiss-Prot с id P0A7B8. Далее с помощью entret sw:P0A7B8 был получен файл hslv_ecoli.entret. Далее получим множественный парны выравнивания с помощью needle. needle sw:P0A7B8 d89965.orf. При просмотре полученного файла приходим к выводу, что последовательности из Swiss-Prot соответствует 5 рамка считывания : D89965_5, так как не содержит гэпы в отличии от остальных и две последовательности полностью совпадают.. Бросается в глаза, что файл из Swiss-prot является последовательностью белка Escherichia coli в том время, как исходный файл является мРНК серой крысы. Видимо, это получилось случайно. Так как, судя по названию статьи, они занимались поиска белков из живота норвежской крысы. Они случайно могли получить мРНК гены E.coli при секвенировании и вставить его в запись.

Файлы-списки

Для выполнения задания необходимо было получить список всех записей алькогольдегидрогеназ. С помощью команды seqred sw:adh*_* adh.fasta. Далее был получен файл usa.txt с помощью команды : infoseq adh.fasta -only -usa > usa.txt . Из этого списка был сформирован список поменьше. Он содержит лишь нужные мне записи.

ARATH
MOUSE
ZEALU
CUPNH
ORYSI
CLOSA
KLULA

Далее был получен список соответствий с помощью grep: grep -f ids.txt usa.txt > id_usa.txt , где ids.txt - меньший список. С помощью SeqRet получен fasta-файл лишь моих последовательностей : seqret @id_usa.txt sequences.fasta . Ссылка на файл : выходной_файл.

Случайная модель для оценки достоверности выравнивания

Для следующего задания было выбрано две алькогольдегидрогеназы. Первая из Arabidopsis thaliana (AC Q8LEB2), вторая из Zea luxurians (АС Q07264). Далее были получены 100 случайных перемешиваний алькогольдегидрогеназы из Арабидопсиса с помощью shuffleseq: shuffleseq shuffle -100 ADHL6_ARATH.fasta. Получен файл shuffledSeqArath.fasta. Сначала был получен файл выравнивания исходных дегидрогеназ с помощью water.Счёт нормального выравнивания : 851. Далее файл с весами был получен из файла с множественными парного выравнивания с помощью bash. Команда : grep '# Score:' multiAlignment.water | sed 's/# Score: //g' > scores.txt Полученный файл: выходной_файл.

Рис.1. Гистограммы счетов выравниваний перемешанных последовательностей.

Исходное парное выравнивание имеет счет 851. Благодаря этому, можно уверенно говорить о гомологии двух последовательностей и белков.

Просвиров Кирилл. Дата последнего изменения: 4 октября 2014.