Программа getorf.Поиск гомологов некодирующих последовательностей.

1. Работа с программой getorf пакета EMBOSS

Командная строка:

getorf -sequence D.fasta -outseq lala.orf -minsize 30 -find 1

Рамка,соответствующая приведённой в поле FT кодирующей последовательности (CDS):

D89965.1_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds. MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM AVTAYAYYSCHELTPWLRIQSTNPVQKYGA

Последовательность Swiss-Prot,на которую ссылается данная запись EMBL,соответствует полученная рамка:

>D89965.1_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS

Для поиска рамки было построено выранивание BLAST:
 Score =  200 bits (509),  Expect = 6e-57, Method: Compositional matrix adjust.
 Identities = 98/98 (100%), Positives = 98/98 (100%), Gaps = 0/98 (0%)

Query  28   MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  87
            MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR
Sbjct  1    MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  60

Query  88   MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  125
            MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS
Sbjct  61   MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  98
Найденная рамка считывания соответсвует центральной части последовательности Swiss-Prot. Причина различия заколючается в том,что нуклеотидная последовательность была взята из одного организма (Rattus norvegicus), а белок,согласно записи Swiss-Prot,принадлежит Escherichia coli. Данный белок - протеаза и ,возможно,центральная часть последовательности- активный центр, одинаков для двух организмов.

2. Поиск гомологов некодирующих последовательностей программой BLASTN

Командная строка для blastn:

blastn -query trna_bacsu.fasta -db pp -evalue 0.01 -task blastn -out trna -outfmt 6

Командная строка для замены весовой матрицы:

blastn -query trna_bacsu.fasta -task blastn -db pp -out trna2 -evalue 0.01 -outfmt 6 -reward 5 -penalty -4 -gapopen 10 -gapextend 6

Командная строка при минимальном значении word size:

blastn -query trna_bacsu.fasta -task blastn -db pp -out trna3 -evalue 0.01 -outfmt 6 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4

Отчетный Excel-файл для упражнений 2-3

Анализ результатов

Число найденных гомологов при изменении параметров расчёта веса выравнивания и изменении длины слова увеличивается, более значительно -в случае замены значения параметра -word_size на минимально возможное.

BSn5_t20980 embl|CP002213|CP002213 80.36 56 9 1 8 61 3721900 3721845 9e-06 43.1

Данная пара не находится программой BLAST при стандартных параметрах и изменении весовой матрицы,но находится при замене параметра -word_size (т.к. он наименее лимитирующий из указанных)
Выравнивание needle:
BSn5_t20980        1 tccgcagtagctcagt--ggtagagctatcggctgttaaccgatcggtcg     48
                            |||||||||  |.||||||..||||||..||||||||.|||||       
CP002213           1 -------tagctcagttggttagagcggtcggctcataaccgattggtcg     43
                                                                              
BSn5_t20980       49 taggttcgaatcctacctgcggagcca     75                       
                     ..|||||||.|||                                            
CP002213          44 ggggttcgagtcc--------------     56
Характеристика выравнивания:
 Length: 80
 Identity:      37/80 (46.2%)
 Similarity:    37/80 (46.2%)
 Gaps:          29/80 (36.2%)
 Score: 70.0
По выравниванию видно,что начало и конец последовательности выровнены плохо, на самом деле эти части соответсвуют акцепторным черешкам тРНК. Для каждой транспортной РНК они специфичны,т.к. отвечают за связываение каждый со своей аминокислотой,отсюда их неконсервативность.
В поле FT записи EMBL гомологичный участок проаннотирован :
FT   gene            complement(3721834..3721907)
FT                   /locus_tag="PPSC2_ct067"
FT   tRNA            complement(3721834..3721907)
FT                   /locus_tag="PPSC2_ct067"
FT                   /product="tRNA-Met"
У P.polymyxa метиониновая РНК, у Bacillus subtilis - tRNA-Asn. Отсюда различия в последовательностях и низкий процент идентичности (+ не совсем удачно выбранная пара,т.к. замена min значения word size -не очень сильный агрумент для выбора наиболее сходных последовательностей)

На страницу 3 семестра
На главную страницу
© Акулич Ксения,2010