Программа getorf. Поиск гомологов некодирующих последовательностей.

Задание 1. Работа с программой getorf пакета EMBOSS


Чтобы получить набор трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании стандартного кода, была выполнена следующая команда:

getorf -sequence D89965.fasta -minsize 30 -find 1 -table 0 -outseq d89965.orf , где

-sequence D89965.fasta - фаста-файл с входной последовательностью,
-outseq d89965.orf - выходной файл,
-find 1 - открытая рамка считывания от старт-кодона до стоп-кодона,
параметры -minsize 30 и -table 0 можно было даже совсем не указывать, т.к. эти значения стоят по умолчанию и обозначают минимальную длину рамки и таблицу генетического кода, соответственно.

Кодирующей последовательности (CDS), приведённой в поле FT, соответствует пятая (D89965.1_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds), последовательность белка, выданная программой getorf, полностью совпадает с последовательностью из банка EMBL. Число нуклеотидов в полученной рамке считывания на три меньше, чем в записи EMBL, следовательно, последние нуклеотиды taa являются стоп-кодоном.

Последовательности из Swiss-Prot соответствует 9-я рамка. Однако последовательность из Swiss-Prot гораздо длиннее рамки (с обеих сторон). Возможно, это связано с тем, что данный ген экспериментально экспрессировался не в родной Rattus norvegicus, а в E.coli. Выравнивание двух последовательностей представлено ниже.

>lcl|17571 swissprot|P0A7B8|HSLV_ECOLI ATP-dependent protease subunit HslV;
Length=176

 Score =  200 bits (509),  Expect = 6e-57, Method: Compositional matrix adjust.
 Identities = 98/98 (100%), Positives = 98/98 (100%), Gaps = 0/98 (0%)

Query  1    MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  60
            MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR
Sbjct  28   MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  87

Query  61   MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  98
            MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS
Sbjct  88   MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  125




Задания 2 и 3. Поиск гомологов некодирующих последовательностей программой BLASTN

Программа Blastn была запущена 4 раза:

1)С параметрами, взятыми по умолчанию:
blastn -query trna_bacsu.fasta -db sa -out em3_2.txt -evalue 0.01 -outfmt 7 -task blastn

2)С измененной весовой матрицей:
blastn -query trna_bacsu.fasta -db sa -out em3_21.txt -evalue 0.01 -outfmt 7 -task blastn -reward 5 -penalty -4 -gapopen 10 -gapextend 6

3)С измененной весовой матрицей при минимальном значении параметра -word_size
blastn -query trna_bacsu.fasta -db sa -out em3_22.txt -evalue 0.01 -outfmt 7 -task blastn -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4

4)С параметрами выравнивания взятыми по умолчанию, но при минимальном значении параметра -word_size
blastn -query trna_bacsu.fasta -db sa -out em3_23.txt -evalue 0.01 -outfmt 7 -task blastn -word_size 4

Полученные результаты представлены в файле trna.xls


Задание 4. Анализ результатов

При изменении значений параметров весовой матрицы -reward 2 и -penalty -3, установленных по умолчанию, на 5 и -4 соответственно, а также изменении размера штрафов за открытие и расширение гэпа, в большинстве случаев число найденных гомологов увеличилось(это связано с тем, что при поиске с меньшими значениями описанных выше параметров, программа находит больше совсем коротеньких совпадающих фрагментов, которые при значениях параметров по умолчанию воспринимаются как случайные); но в нескольких строчках все же можно заметить обратное (уменьшение числа находок). При установке минимального значения параметра -word_size 4 и -reward 5 и -penalty -4 число найденных гомологов почти во всех случаях сильно увеличилось, потому что, очевидно, длина образуемых blastом слов обратнопропорциональна количеству найденных последовательностей. В последнем случае заметно, что если задать программе минимальное значение длины слова, а остальные параметры выравнивания оставить по умолчанию, то все равно количество находок увеличится. Для выравнивания программой needle выбрана находка, которая находится программой BLAST при третьем наборе параметров и не находится при первом наборе (по умолчанию).

########################################
# Program: needle
# Rundate: Sat  5 Nov 2011 18:17:30
# Commandline: needle
#    [-asequence] 996.fasta
#    [-bsequence] small845.fasta
#    [-outfile] ali.needle
#    -auto
# Align_format: srspair
# Report_file: ali.needle
########################################

#=======================================
#
# Aligned_sequences: 2
# 1: BSn5_t20996
# 2: AL766845
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 73
# Identity:      58/73 (79.5%)
# Similarity:    58/73 (79.5%)
# Gaps:           0/73 ( 0.0%)
# Score: 230.0
# 
#
#=======================================

BSn5_t20996        1 gccggtgtagctcaattggtagagcgcctgacttgtaagcagtggattgg     50
                     |||||..|||||||.||||||||||..||||.||||||.|||.||.|.|.
AL766845           1 gccggcttagctcagttggtagagcatctgatttgtaatcagagggtcgc     50

BSn5_t20996       51 gggttcaagtcctcttgccggca     73
                     |.|||||||||.|.|.|||||||
AL766845          51 gtgttcaagtcatgtagccggca     73


#---------------------------------------
#---------------------------------------




Очевидно, в выравнивании присутствуют несколько очень консервативных фрагментов, проценты идентичности и сходства высоки, гэпы совсем отсутствуют, что означает, что участки последовательностей гомологичны и такая находка не является случайной. Это можно объяснить достаточно консервативной структурой молекул РНК, к тому же, если посмотреть записи EMBL, относящиеся к генам, кодирующим эти две РНК, то можно заметить, что у обеих бактерий они треониновые.
Так проаннотирован в EMBL выравниваемый участок из Streptococcus agalactiae:
/product="transfert RNA-Thr"





E-mail: yan1303@yandex.ru
Официальный сайт ФББ
Ваши предложения :)))
Проекты
Главная страница



©Шарапова Яна