Программa GETORF




Занятие 7. Программа getorf. Поиск гомологов некодирующих последовательностей

1. Работа с программой getorf пакета EMBOSS

Чтобы получить для D89965 банка EMBL набор трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании стандартного кода, надо запустить следующую командную строку:

getorf -sequence d89965.fasta -outseq d89965.orf -minsize 30 -find 1

Из найденных открытая рамка D89965.1_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds соответствует приведенной в поле FT кодирующей последовательности (CDS) с координатами 163..435, которая, как видно, отличается от найденной рамки на триплет - taa.

Последовательности записи Swiss-Prot , на которую ссылается данная запись EMBL, соответствует последняя из полученных открытая рамка D89965.1_9 [294 - 1] (REVERSE SENSE) , которая заметно длиннее и заключает в себе эту последовательность.

Возможно полученнвый результат объясняется тем, что данная рамка принадлежит mRNA Rattus norvegicus, а последовательность принадлежит Escherichia coli, эти два организма вместе широко используются в научных исседованиях c белками для целей структурной геномики, например из тотальной мРНК печени крысы методом обратной транскрипции получают кДНК целевых белков, амплифицированных, а затем трансформированных в клетки E.coli (использовалось в СОЗДАНИИ ГЕНЕТИЧЕСКИХ КОНСТРУКЦИЙ ДЛЯ ЭКСПРЕССИИ ГЕНОВ БЕЛКОВ АПОПТОЗА).

2. Поиск гомологов некодирующих последовательностей программой BLASTN

Oтчётный Excel-файл

3. Поиск гомологов при изменённых параметрах программы BLASTN

Oтчётный Excel-файл

4. Анализ результатов

Общее впечатление:

число найденных гомологов при изменении параметров расчёта веса выравнивания до -reward 5 и -penalty -4 (по умолчанию -reward 2 и -penalty -3) для каких-то последовательностей увеличилось по большей части, но для каких-то уменьшилось, а где-то и осталось прежним;
но в то же время при изменении длины слова количество найденных гомологов либо увеличилось, либо не изменилось;
при минимальном значении word_size и взятыми по умолчанию параметрами вычисления веса выравнивания число гомологов увеличивается, но не значительно.

В одном из полученных выходных файлов BLASTN была выбрана пара из tRNA B.subtilis - BSn5_t20894 tRNA-Gln и найденного в геноме другой бактерии гомологичного участка - CP002213 c координатами 462589..462659, причем эта находка появляется при одном наборе параметров (нашлась при установлении порога для длины слова) и не находится при другом. Выравнивание этих двух гомологичных участков было получено с помощью программы needle:



Из полученного выравнивания видно, что процент идентичности равен 64.0%, значение которого является достаточно большим и значимым при определении гомологов. При этом при уменьшении значения длины слова, вероятность нахождения негомологичных последовательностей увеличивается ввиду уменьшения ограничивающих выборку критериев.
Следует указать, что в поле FT записи EMBL, описывающей геном бактерии, гомологичный участок проаннотирован как product="tRNA-Cys".


©Андреянова Екатерина