Getorf

Работа с программой getorf пакета EMBOSS

Создан файл images/D89965.entret с записью банка EMBL.

Выполнена команда:

getorf -sequence D89965.entret -minsize 30 -table 0 -find 1 -outseq D89965.orf

Программа getorf ищет открытые рамки считывания последовательности

 -sequence D89965.entret              файл с последовательностью, поданной на вход
-minsize 30(задана по умолчанию ) минимальная длина рамки -table стандартная таблица кодов -find 1 есть 2 определения открытой рамки: 1) в открытую рамку не входит стоп-кодон
2) открытая рамка включает в себя старт- и стоп-кодон(выбран в данном случае)
-outseq В89965.orf файл D89965.orf с результатом
В результате поиска с помощью BLASTP открытой рамки, приведенной в CDS, по полученному файлу с открытыми рамками считывания получаем выравнивание:
>D89965_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds. 
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM        
AVTAYAYYSCHELTPWLRIQSTNPVQKYGA 


Таким образом, пятая из найденных рамок соответствует приведенной в записи cds.
c помощью такой команды:
blastp -query HSLU_ECOLI.fasta -subject D89965.orf -out hsku_d89965
я нашла откратую рамку
соответствующую последовательности белка P0A7B8, на запись которого ссылается данная запись EMBL.
это 9 рамка [294 - 1]. А ей соответствует пятая. Это противоречие возможно связано с тем, что Swissprot курируемая база данных, а embl нет из за этого там могут быть ошибки и последовательность может быть вообще не та.

                                                                                
 Score =  200 bits (509),  Expect = 2e-57, Method: Compositional matrix adjust. 
 Identities = 98/98 (100%), Positives = 98/98 (100%), Gaps = 0/98 (0%)          
                                                                                
Query  28   MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  87    
            MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR        
Sbjct  1    MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  60    
                                                                                
Query  88   MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  125                         
            MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS                              
Sbjct  61   MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  98

Поиск некодирующих последовательностей программой blastn

запустили команду:
   blastn -task blastn -evalue 0.001 -query trna_bacsu.fasta -out trna_blast -db lm -outfmt 6
выходной файл trna_blast
С помощью скрипта получили количество находок для данной последовательности в файле.
Обработанные данные в файле trna.xlsx

Анализ результатов


Изменение параметров весовой матрицы увеличило количество гомологов почти для каждой последоватеьности
, но для некоторых это количество уменьшилось на 1. Это, возможно, связанос тем, что "плата" за несовпадающие
нуклеотиды стала больше, вырос вес находок и E-value уменьшилось, поэтому находок стало больше.
Только некоторые последовательности, число гомологов которых уменьшилось противоречат этому выводу
При изменении длины слова количество находок для всех последовательностей возросло, что так же связано с уменьшением E-value,
так длина слова прямопропорциональна ему.


Для выравнивания я выбрала поледовательность, которой не было в выдаче после выравнивания со стандартными параметрами весовой матрицы.

                                                                                
#=======================================                                        
#                                                                              
# Aligned_sequences: 2                                                         
# 1: AL591974                                                                                            
# 2: BSn5_t20966                                                                                                                                               
# Matrix: EDNAFULL                                                                                                                                             
# Gap_penalty: 10.0                                                            
# Extend_penalty: 0.5                                                          
#                                                                              
# Length: 70                                                                   
# Identity:      41/70 (58.6%)                                                 
# Similarity:    41/70 (58.6%)                                                 
# Gaps:          18/70 (25.7%)                                                 
# Score: 124.5                                                                 
#                                                                              
#                                                                              
#=======================================                                       
                                               .....................                               
AL591974           1 -gtagctcagcttggtagagcacttggtttgggacc----aa----gggg     41 
                      |||||||||||.|.||||||.|..|        ||    ||    |.||        
BSn5_t20966        1 tgtagctcagctggttagagcgcacg--------cctgataagcgtgagg     42 
                                                                               
AL591974          42 tcgcaggttcgaatcctgtc     61                               
                     |||..|||||||.|||..|                                       
BSn5_t20966       43 tcggtggttcgagtccact-     61                               

Из выравнивания видно, что последовательности гомологичны, так как достаточно бoльшой процент сходства
Вероятно, из за куска, помеченого сверху точечками, эта последовательность не была в выдаче со стандартными параметрами
Наличие практически идентичных участков связано с тем, что тРНК для всех организмов достаточно консервативна
А наличие различных участков, видимо, связано с видовыми отличиями этих бактерий: Listeria monocytogenes и Bacillus subtilis
и тем, что они переносят разные аминокислоты:Listeria - Pro, Bacillus - Ile.

FT   tRNA            43046..43119
FT                   /product="transfert RNA-Pro"

© Garanina Irina