Программа getorf. Поиск гомологов некодирующих участков.




Работа с программой getorf пакета EMBOSS

Выполнена команда: getorf -sequence D89965.fasta -minsize 30 -table 0 -find 1 -outseq D89965.orf
Программа getorf осуществляет поиск открытых рамок считывания последовательности

 -sequence d89965.fasta              	файл с последовательностью на вход

 -minsize 30  				минимальная длина рамки (по умолчанию 30)

 -table 0         			таблица генетических кодов (можно не писать, по уполчанию 0) 

 -find 1           			открытая раамка считывания включает стоп-кодон

 -outseq D89965.orf 			файл  с результатом

В поле FT приведена следующая кодирующая последовательность (CDS):

FT   CDS             163..435
FT                   /product="RSS"
FT                   /note="Rat Stomach Serotonin receptor-related gene"
FT                   /db_xref="GOA:P0A7B8"
FT                   /db_xref="InterPro:IPR001353"
FT                   /db_xref="InterPro:IPR022281"
FT                   /db_xref="PDB:1E94"
FT                   /db_xref="PDB:1G4A"
FT                   /db_xref="PDB:1G4B"
FT                   /db_xref="PDB:1HQY"
FT                   /db_xref="PDB:1HT1"
FT                   /db_xref="PDB:1HT2"
FT                   /db_xref="PDB:1NED"
FT                   /db_xref="UniProtKB/Swiss-Prot:P0A7B8"
FT                   /protein_id="BAA14040.1"
FT                   /translation="MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHY
FT                   GIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQSTNPVQKYGA"

Из найденных открытых рамок соответствует приведённой в поле FT кодирующей последовательности (CDS) следующая:

>D89965.1_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
AVTAYAYYSCHELTPWLRIQSTNPVQKYGA

Таким образом, рамка D89965.1_5 соответствует кодирующей последовательности (данную рамку легко найти "глазами").

Последовательности из Swiss-Prot соответствует 9 рамка. С помощью blastp получаем:

Query= sp|P0A7B8|HSLV_ECOLI ATP-dependent protease subunit HslV
OS=Escherichia coli (strain K12) GN=hslV PE=1 SV=2
         
Subject= D89965.1_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS,
complete cds.

Length=98


 Score =  200 bits (509),  Expect = 2e-57, Method: Compositional matrix adjust.
 Identities = 98/98 (100%), Positives = 98/98 (100%), Gaps = 0/98 (0%)

Query  28   MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  87
            MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR
Sbjct  1    MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  60

Query  88   MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  125
            MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS
Sbjct  61   MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  98

Поиск гомологов некодирующих последовательностей программой BLASTN

Команда: blastn -query trna_bacsu.fasta -db sa -out trna1.fasta -evalue 0.01 -task blastn -outfmt 7

  • Результат

     

    Поиск гомологов при изменённых параметрах программы BLASTN

    Команды:
    blastn -query trna_bacsu.fasta -db sa -out trna2.fasta -evalue 0.01 -task blastn -outfmt 7 -reward 5 -penalty -4 -gapopen 25 -gapextend 10
    blastn -query trna_bacsu.fasta -db sa -out trna3.fasta -evalue 0.01 -task blastn -outfmt 7 -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 4
    blastn -query trna_bacsu.fasta -db sa -out trna4.fasta -evalue 0.01 -task blastn -outfmt 7 -word_size 4

  • Результат

     

    Анализ результатов

    При изменении весовой матрицы до значений -reward 5 и -penalty -4 от 2 и -3 по умолчанию соответственно в большинстве случаев произошло увеличение числа гомологов. При сокращении -word_size от 11 по умолчанию до 4 и при использовании -reward 5 и -penalty -4 число гомологов во всех случаях резко возрастает (скачок составляет до +20 новых гомологов). Это можно объяснить тем, что чем короче слова образуются в ходе работы BLAST, тем большее число последовательностей может быть подобрано. Увеличение также наблюдается и без использования -reward 5 и -penalty -4.

    Для выравнивания выбрана такая находка, которая находится программой BLAST при одном наборе параметров -по умолчанию - и не находится при другом (-reward 5 и -penalty -4).
    Результат:

    # Length: 93
    # Identity:      79/93 (84.9%)
    # Similarity:    79/93 (84.9%)
    # Gaps:           4/93 ( 4.3%)
    # Score: 355.0
    # 
    #
    #=======================================
    
    BSn5_t20970        1 ggaggaatacccaagtccggctgaagggatcggtcttgaaaaccgacagg     50
                         ||||||.||||||||||||||||||||||.|||||||||||||||.||||
    AL766844           1 ggaggattacccaagtccggctgaagggaacggtcttgaaaaccgtcagg     50
    
    BSn5_t20970       51 ggtgtcaaagcccgcgggggttcgaatccctcttcctccgcca     93
                         .||||.|||||..|||.|||||||||||||.|.||||||    
    AL766844          51 cgtgtaaaagcgtgcgtgggttcgaatcccacatcctcc----     89
    
    

    Выравнивание показывает, что последовательности гомологичны. Высокий процент сходства наблюдается почти по всему участку.
    Проаннотирован в EMBL так: /product="Unknown".
    Так как продукт этого участка "неизвестный", то можно предположить, что высокую идентичность выравнивания можно объяснить сходными структурами тРНК. Различия этих последовательностей заключаются в индивидуальных особенностях разных бактерий, что делает разные живые организмы не похожими друг на друга.



    © Alisa Garaeva