Команда для получения набора трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании стандартного кода:
getorf -minsize 30 -find 1 -table 0
Кодирующей последовательности, приведённой в поле FT, из найденных открытых рамок считывания соответствует пятая (D89965.1_5 [163 - 432]). Аминокислотная последовательность, выданная программой getorf, идентична последовательности из EMBL. Указанное число нуклеотидов в открытой рамке считывания на три меньше, чем в CDS (163..435). По полной последовательности гена было определено, что эти нуклеотиды - стоп-кодон taa.
Последовательность записи Swiss-Prot, на которую ссылается данная запись EMBL соответствует последней из полученных открытых рамок (D89965.1_9 [294 - 1]). При этом она значительно длиннее как справа, так и слева. Возможно, это объясняется тем, что белок из Swiss-Prot принадлежит E.coli, которая используется в исследованиях для его синтеза с данного гена Rattus norvegicus. Может быть, синтезированный в бактерии полипептид в ходе модификаций соединяется с некоторыми последовательностями в начале и в конце, чтобы не причинить бактерии вреда.
Были запущены 3 варианта BLASTN:
blastn -task blastn -query trna_bacsu.fasta -db bl -evalue 0.01 -out trna_bl -outfmt 6
blastn -task blastn -query trna_bacsu.fasta -db bl -evalue 0.01 -out trna_matrix -outfmt 6 -reward 5 -penalty -4 -gapopen 10 -gapextend 6
blastn -task blastn -query trna_bacsu.fasta -db bl -evalue 0.01 -out trna_word -outfmt 6 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4
В результате получено число находок для каждой последовательности:
trna.xls, с использованием скриптов:
1, 2, 3.
Пара:
BSn5_t20972 embl|AE017333|AE017333 69.01 71 22 0 7 77 3116930 3116860 3e-05находится программой BLASTBN с измененной весовой матрицей и не находится при стандартных параметрах, потому что стандартные значения более строгие и не допускают обнаружения чуть менее похожих пар последовательностей. Характеристики выравнивания тРНК BSn5_t20972 и гомологичного ей участка из генома Bacillus licheniformis, проведеного с помощью программы needle:
Это не очень похожие последовательности, которые могли найтись только при изменении весовой матрицы.
В поле FT записи EMBL, описывающей геном бактерии, про данный гомологичный участок сказано, что он кодирует tRNA-Pro, в то время как ген из B.subtilis кодирует tRNA-Ile.