Программа getorf. Поиск гомологов некодирующих последовательностей.

1. 1. Работа с программой getorf пакета EMBOSS

Выполнена команда:

getorf -sequence d89965.fasta -minsize 30 -table 0 -find 1 -outseq d89965.orf

Программа getorf осуществляет поиск открытых рамок считывания последовательности

 -sequence d89965.fasta              	файл с последовательностью на вход
-minsize 30 минимальная длина рамки (по умолчанию 30)
-table 0 таблица генетических кодов (можно не писать, по уполчанию 0)
-find 1 открытая раамка считывания включает стоп-кодон
-outseq d89965.orf файл с результатом
Открытая рамка считывания

>D89965_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds. MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM AVTAYAYYSCHELTPWLRIQSTNPVQKYGA

соответствует кодирующей последовательности (CDS).

Открытая рамка считывания, соответствующая последовательности белка HSLV_ECOLI (из записи UniProt), но не всей ,а только 28-125 остаткам ( длина всего белка-176 остатков):

>D89965_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASL IITGNGDVVQPENDLIAIGS

Последовательности совпадают почти полностью (если сделать выравнивание для всей последовательности Rattus norvegicus mRNA и белка HSLU_ECOLI, то выравнивание будет идентичным уже не 97, а 125 а.о.) , хотя они взяты из разных организмов:первая - из Rattus norvegicus , а вторая ( на которую ссылается данная запись EMBL) - из Escherichia coli . Такое несоответствие можно объяснить тем, что кодирующая последовательность в записи EMBL была определена неправильно: вместо крысы, возможно, была отсеквенирована кишечная палочка, которая жила в её пищеварительном тракте. На SwissProt мы полагаемся, так как это курируемая база данных.

2. Поиск гомологов некодирующих последовательностейпрограммой BLASTN

Файл с результатами

3. Поиск гомологов при измененных параметрах программы BLASTN

1)
blastn -query trna_bacsu.fasta -db hh -out trna2.fasta -evalue 0.01 -task blastn -outfmt 6 -reward 5 -penalty -4 -gapopen 10 -gapextend 6
		  
2)
 
blastn -query trna_bacsu.fasta -db hh -out trna3.fasta -evalue 0.01 -task blastn -outfmt 6 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4
          
3)
  
blastn -query trna_bacsu.fasta -db hh -out trna4.fasta -evalue 0.01 -task blastn -outfmt 6  -word_size 4 
          

Файл с результатами

4. Анализ результатов

При изменении значений -reward и -penalty от 2 до 5 и -3 до -4 соответственно в большинстве случаев число гомологов увеличилось или не изменилось. Однако встречалось и уменьшение числа гомологов, но таких случаев было гораздо меньше. При уменьшении длины слова количество гомологов увеличилось, и лишь в незначительном количестве случаев не изменилось.

Для анализа программой needlе были выбрана пара гомологов, которая есть при весовой матрице с парамтрами -reward 5 и -penalty -4, но отсутствует при стандартных значениях этих параметров. Это BSn5_t20966 на участке 5-63 и AL591977 на 46660-46717

 query id          subject id          % identity  alignment length   mismatches   gap opens  q. start   q. end   s. start   s. end   evalue  bit score
BSn5_t20966	embl|AL591977|AL591977     76.27	    59	          13	       1	   5	   63	    46660     46717   2e-05	40.8

В результате парного выравнивания:

# Aligned_sequences: 2
# 1: BSn5_t20966
# 2: AL591977
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 59
# Identity:      45/59 (76.3%)
# Similarity:    45/59 (76.3%)
# Gaps:           1/59 ( 1.7%)
# Score: 163.0
# 
#
#=======================================

BSn5_t20966        1 ctgtagctcagctggttagagcgcacgcctgataagcgtgaggtcggtgg     50
                     |.|||||||||.||| ||||||...||.|||.|||.||...|||||..||
AL591977           1 cagtagctcagttgg-tagagcaatcggctgttaaccgatcggtcgcagg     49

BSn5_t20966       51 ttcgagtcc     59
                     |||||||||
AL591977          50 ttcgagtcc     58

Следует обратить внимание, что выравниваемые последовательности тРНК различаются г.о. в центре (соответствующем антикодоновой петле), а их края (соответствующие акцепторному черешку) вообще не выровнялись, это напрямую связано с функциями этих тРНК. Дело в том, что гомологичный участок является частью последовательности, продуктом которой является tRNA-Asn (в соответствии с полем FT записи EMBL, описывающей геном бактерии). Продуктом же BSn5_t20966 является tRNA-Ile.