Программа getorf. Поиск гомологов некодирующих последовательностей.

Главная

Работа с программой getorf пакета EMBOSS

Команда для получения набора трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании стандартного кода:

getorf -minsize 30 -find 1 -table 0

Кодирующей последовательности, приведённой в поле FT, из найденных открытых рамок считывания соответствует пятая (D89965.1_5 [163 - 432]). Аминокислотная последовательность, выданная программой getorf, идентична последовательности из EMBL. Указанное число нуклеотидов в открытой рамке считывания на три меньше, чем в CDS (163..435). По полной последовательности гена было определено, что эти нуклеотиды - стоп-кодон taa.

Последовательность записи Swiss-Prot, на которую ссылается данная запись EMBL соответствует последней из полученных открытых рамок (D89965.1_9 [294 - 1]). При этом она значительно длиннее как справа, так и слева. Возможно, это объясняется тем, что белок из Swiss-Prot принадлежит E.coli, которая используется в исследованиях для его синтеза с данного гена Rattus norvegicus. Может быть, синтезированный в бактерии полипептид в ходе модификаций соединяется с некоторыми последовательностями в начале и в конце, чтобы не причинить бактерии вреда.

Поиск гомологов некодирующих последовательностей программой BLASTN

Были запущены 3 варианта BLASTN:

В результате получено число находок для каждой последовательности:
trna.xls, с использованием скриптов: 1, 2, 3.

Анализ результатов

Число найденных гомологов при изменении параметров расчёта веса выравнивания и изменении длины слова постепенно увеличивается.

Пара:

BSn5_t20972  embl|AE017333|AE017333  69.01  71  22  0  7  77  3116930  3116860  3e-05
находится программой BLASTBN с измененной весовой матрицей и не находится при стандартных параметрах, потому что стандартные значения более строгие и не допускают обнаружения чуть менее похожих пар последовательностей. Характеристики выравнивания тРНК BSn5_t20972 и гомологичного ей участка из генома Bacillus licheniformis, проведеного с помощью программы needle:
Процент идентичности: 50/81 (61.7%)
Процент схожести: 50/81 (61.7%)
Гэпы: 14/81 (17.3%)
Вес выравнивания: 159.0

Это не очень похожие последовательности, которые могли найтись только при изменении весовой матрицы.

В поле FT записи EMBL, описывающей геном бактерии, про данный гомологичный участок сказано, что он кодирует tRNA-Pro, в то время как ген из B.subtilis кодирует tRNA-Ile.


©Гущина Ирина