>D89965_3 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds. MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM AVTAYAYYSCHELTPWLRIQSTNPVQKYGAСтарт-кодоны совпадают (163), а вот ORF из файла длиннее на 3 нуклеотида, чем из d89965.orf. Видимо, это связано с тем, что getorf не учитывает стоп-кодон. Запись EMBL ссылается на запись Swiss-Prot с id P0A7B8. Далее с помощью entret sw:P0A7B8 был получен файл hslv_ecoli.entret. Далее получим множественный парны выравнивания с помощью needle. needle sw:P0A7B8 d89965.orf. При просмотре полученного файла приходим к выводу, что последовательности из Swiss-Prot соответствует 5 рамка считывания : D89965_5, так как не содержит гэпы в отличии от остальных и две последовательности полностью совпадают.. Бросается в глаза, что файл из Swiss-prot является последовательностью белка Escherichia coli в том время, как исходный файл является мРНК серой крысы. Видимо, это получилось случайно. Так как, судя по названию статьи, они занимались поиска белков из живота норвежской крысы. Они случайно могли получить мРНК гены E.coli при секвенировании и вставить его в запись.
ARATH MOUSE ZEALU CUPNH ORYSI CLOSA KLULAДалее был получен список соответствий с помощью grep: grep -f ids.txt usa.txt > id_usa.txt , где ids.txt - меньший список. С помощью SeqRet получен fasta-файл лишь моих последовательностей : seqret @id_usa.txt sequences.fasta . Ссылка на файл : выходной_файл.
Рис.1. Гистограммы счетов выравниваний перемешанных последовательностей.
Исходное парное выравнивание имеет счет 851. Благодаря этому, можно уверенно говорить о гомологии двух последовательностей и белков.Просвиров Кирилл. Дата последнего изменения: 4 октября 2014.