Программа getorf. Поиск гомологов некодирующих последовательностей.

  • Работа с программой getorf пакета EMBOSS
  • Cледующей комнадой можно достичь желаемого результата:
      getorf  -sequence d89965.entret  -outseq qw.orf -minsize 30 -find 1 -table 0
          

    * -table моожно и не указывать, ибо он 0 по умолчанию

    Вот результат getorf:

        >D89965_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
    MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
    AVTAYAYYSCHELTPWLRIQSTNPVQKYGA
        

    А вот CDS находки:
         FT   CDS             163..435
         ...
         FT                   /translation="MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHY
         FT                   GIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQSTNPVQKYGA"
         


    Как видно, последовательности совпадают.
    Последовательности в SW соответствует следующая рамка:
        >D89965_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
    MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR
    MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS
    

    В EMBL CDS дан для 5й находки, тогда как в ссылке на Swissprot обнаружена 9я рамка считывания и запись для E.coli.
    Вероятнее всего это ошибка тех кто поместил в EMBL эту запись и не проверил, в действительности ли это белок крысы.
    Swissprot как известно более афторитетная база данных, нежели EMBL

  • Поиск гомологов некодирующих последовательностей программой BLASTN
  • Результаты в .xls - файле

    . Поиск гомологов при изменённых параметрах программы BLASTN

    Для первого раза я решил использоавть такие штрафы за появление гэпа и его продление:
     
              blastn -query trna_bacsu.fasta -db sa -out 3res1 -evalue 0.01 -task blastn -outfmt 7 -reward 5 -penalty -4 -gapopen 10 -gapextend 6
    		  
    Для второго: минимальный размер слова это 4; вот команда:
     
    		  blastn -query trna_bacsu.fasta -db sa -out 3res2 -evalue 0.01 -task blastn -outfmt 7 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4
              
    *Дополнительное задание:
      
              blastn -query trna_bacsu.fasta -db sa -out add -evalue 0.01 -task blastn -outfmt 7  -word_size 4 
              

    Анализ результатов

    В случае blastn только с измененными параметрами возникает большее число находок
    по сравнению с дефолтом, но в целом число находок ненамного отличается от такового
    у стандартного бласта. Но как только к этим условиям добавить минимальный размер слова (4),
    число находок порой удваивается. Это связано с тем, что при длине слова 4 совпадений наверняка
    будет больше и не будут потеряны гомологи с немного отличными остатками. Min size сам по себе
    более "продуктивен" чем только изменение параметров, но иногда даже в этом случае улучшения незначительны.

    Данная находка присутствует только в бласте и с измененными параметрами, и с задачей минимального размера слова:
                  embl|AL766854|AL766854
                  
    Причина этого кроется в эффективности поиска гомологов объединением "усилий" с обоих сторон.
    Характеристики выравнивания needle'ом:
                   # Length: 73
                   # Identity:      50/73 (68.5%)
                   # Similarity:    50/73 (68.5%)
                   # Gaps:           7/73 ( 9.6%)
                   # Score: 165.0
                   
    Вот само выравнивание:
    AL766854           1 -gcggtatagccaagtggtaaggca--cggctctgcaaaagcttgatcgt     47
                          |.|.||||||||||.|||||||||  .|.||.||  |...|.|||||||
    BSn5_t20894        1 tgggctatagccaagcggtaaggcaatggactttg--actccgtgatcgt     48
    
    AL766854          48 cggttcaaatccgtctaccgc--     68
                         .|||||.|||||..|||.|.|  
    BSn5_t20894       49 tggttcgaatccagctagcccag     71
    
                   
    Как видно, последовательности достаточно идентичны и рознятся с некой периодичностью.
    Это тРНК, которая имеет собственную более или менее постоянную 3-ю структуру с некоторыми вариациями,
    которые зависят от видовых особенностей. Стрептококк и бацилла это хоть и виды одного класса,
    но достаточно отдаленные родственники, поэтому у них возможны некоторые различия в последовательности тРНК
    И вообще, у бациллы это Gln-РНК, а у стрептококка Cys.
    Проаннотирован в EMBL: product="transfert RNA-Cys