Программa GETORF
Занятие 7. Программа getorf. Поиск гомологов некодирующих последовательностей
1. Работа с программой getorf пакета EMBOSS
Чтобы получить для D89965 банка EMBL набор трансляций всех открытых рамок
данной последовательности длиной более 30 нуклеотидов, считая открытой рамкой
последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся
стоп-кодоном, при использовании стандартного кода, надо запустить следующую
командную строку:
getorf -sequence d89965.fasta -outseq d89965.orf -minsize 30 -find 1
Из найденных открытая рамка D89965.1_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds
соответствует приведенной в поле FT кодирующей последовательности (CDS) с координатами
163..435, которая, как видно, отличается от найденной рамки на триплет - taa.
Последовательности записи Swiss-Prot ,
на которую ссылается данная запись EMBL, соответствует последняя из полученных
открытая рамка D89965.1_9 [294 - 1] (REVERSE SENSE) ,
которая заметно длиннее и заключает в себе эту последовательность.
Возможно полученнвый результат объясняется тем, что данная рамка принадлежит mRNA Rattus norvegicus,
а последовательность принадлежит Escherichia coli, эти два организма вместе широко используются
в научных исседованиях c белками для целей структурной геномики, например
из тотальной мРНК печени крысы методом обратной транскрипции получают кДНК целевых белков,
амплифицированных, а затем трансформированных в клетки E.coli (использовалось в СОЗДАНИИ
ГЕНЕТИЧЕСКИХ КОНСТРУКЦИЙ ДЛЯ ЭКСПРЕССИИ ГЕНОВ БЕЛКОВ АПОПТОЗА).
2. Поиск гомологов некодирующих последовательностей программой BLASTN
3. Поиск гомологов при изменённых параметрах программы BLASTN
4. Анализ результатов
Общее впечатление:
число найденных гомологов при изменении параметров расчёта веса выравнивания
до -reward 5 и -penalty -4 (по умолчанию -reward 2 и -penalty -3) для каких-то последовательностей
увеличилось по большей части, но для каких-то уменьшилось, а где-то и осталось прежним;
но в то же
время при изменении длины слова количество найденных гомологов либо увеличилось, либо не изменилось;
при минимальном значении word_size и взятыми по умолчанию параметрами вычисления веса выравнивания
число гомологов увеличивается, но не значительно.
В одном из полученных выходных файлов BLASTN была выбрана пара из tRNA B.subtilis - BSn5_t20894 tRNA-Gln
и найденного в геноме другой бактерии гомологичного участка - CP002213 c координатами 462589..462659,
причем эта находка появляется при одном наборе параметров (нашлась при установлении порога для длины слова)
и не находится при другом. Выравнивание этих двух гомологичных участков было получено с помощью программы
needle:
Из полученного выравнивания видно, что процент идентичности равен 64.0%, значение которого является
достаточно большим и значимым при определении гомологов. При этом при уменьшении значения длины слова,
вероятность нахождения негомологичных последовательностей увеличивается ввиду уменьшения ограничивающих
выборку критериев.
Следует указать, что в поле FT записи EMBL, описывающей геном бактерии, гомологичный участок проаннотирован
как product="tRNA-Cys".
©Андреянова Екатерина