Занятие 7. "Программа getorf. Поиск гомологов некодирующих участков"



Задание 1. Работа с программой getorf пакета EMBOSS

Для получения набора трансляций всех открытых рамок D89965 банка EMBL последовательности длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании стандартного кода выполнялась команда:

getorf  -sequence D89965.fasta -table 0 -minsize 30 -find 1 -outseq d89965.orf

Одна из полученных открытых рамок, соответствующая кодирующей последовательности в поле FT записи D89965:

>D89965_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
AVTAYAYYSCHELTPWLRIQSTNPVQKYGA


FT   CDS             163..435
FT                   /product="RSS"
FT                   /note="Rat Stomach Serotonin receptor-related gene"
FT                   /db_xref="GOA:P0A7B8"
FT                   /db_xref="InterPro:IPR001353"
FT                   /db_xref="InterPro:IPR022281"
FT                   /db_xref="PDB:1E94"
FT                   /db_xref="PDB:1G4A"
FT                   /db_xref="PDB:1G4B"
FT                   /db_xref="PDB:1HQY"
FT                   /db_xref="PDB:1HT1"
FT                   /db_xref="PDB:1HT2"
FT                   /db_xref="PDB:1NED"
FT                   /db_xref="UniProtKB/Swiss-Prot:P0A7B8"
FT                   /protein_id="BAA14040.1"
FT                   /translation="MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHY
FT                   GIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQSTNPVQKYGA"

Файл с последовательностью записи Swiss-Prot, на которую ссылается данная запись EMBL - P0A7B8 (HSLV_ECOLI). Выясним, какой из полученных открытых рамок соответствует эта последовательность. Для этого запустим blastp по выдаче getorf (blastp -query HSLV_ECOLI -subject d89965.orf -out HSLV_d89965). Удовлетворяющая требованиям находка:

Subject= D89965_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS,
complete cds.

Length=98


 Score =  204 bits (518),  Expect = 6e-57, Method: Composition-based stats.
 Identities = 98/98 (100%), Positives = 98/98 (100%), Gaps = 0/98 (0%)

Query  7302  MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  7361
             MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR
Sbjct  1     MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  60

Query  7362  MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  7399
             MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS
Sbjct  61    MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  98

таким образом, последовательности из Swiss-Prot соответствует 9 рамка.

Задание 2. Поиск гомологов некодирующих последовательностей программой BLASTN

Таблица, с результатами. Текст cкрипта для выполнения задания.

Задание 3. Поиск гомологов при изменённых параметрах программы BLASTN

В первый раз менялась весовая матрица:

 blastn -db lm -query trna_bacsu.fasta -out TRNA2 -outfmt 6 -evalue 0.01 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -task blastn 

Во второй раз менялась еще и длина слова на минимально возможную :

 blastn -db lm -query trna_bacsu.fasta -out TRNA3 -outfmt 6 -evalue 0.01 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 -task blastn 

Таблица с результатами этого задания представлена в задании 2.

Задание 4. Анализ результатов

При изменении значений -reward и -penalty от 2 до 5 и -3 до -4 соответственно в большинстве случаев число гомологов увеличилось или не изменилось. Однако встречалось и уменьшение числа гомологов, но таких случаев было гораздо меньше. При уменьшении дли слова количество гомологов увеличилось, и лишь в незначительном количестве случаев не изменилось.

Для анализа программой needlе были выбрана пара гомологов, которая есть при весовой матрице с парамтрами -reward 5 и -penalty -4, но отсутствует при стандартных значениях этих параметров. Это BSn5_t20966 на участке 5-63 и AL591977 на 46660-46717

 query id          subject id          % identity  alignment length   mismatches   gap opens  q. start   q. end   s. start   s. end   evalue  bit score
BSn5_t20966	embl|AL591977|AL591977     76.27	    59	          13	       1	   5	   63	    46660     46717   2e-05	40.8

В результате парного выравнивания:

# Aligned_sequences: 2
# 1: BSn5_t20966
# 2: AL591977
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 59
# Identity:      45/59 (76.3%)
# Similarity:    45/59 (76.3%)
# Gaps:           1/59 ( 1.7%)
# Score: 163.0
# 
#
#=======================================

BSn5_t20966        1 ctgtagctcagctggttagagcgcacgcctgataagcgtgaggtcggtgg     50
                     |.|||||||||.||| ||||||...||.|||.|||.||...|||||..||
AL591977           1 cagtagctcagttgg-tagagcaatcggctgttaaccgatcggtcgcagg     49

BSn5_t20966       51 ttcgagtcc     59
                     |||||||||
AL591977          50 ttcgagtcc     58

Гомологичный участок является частью последоваетельности, продуктом которой является tRNA-Asn (в соответствии с полем FT записи EMBL, описывающей геном бактерии). Продуктом же BSn5_t20966 является tRNA-Ile. Так как важным критерием установления гомологичности является аналогичность биологической функции, то эти две последовательности (кодирующие аспарагиновую и изолейциновую тРНК) вряд ли можно назвать гомологичными. А нахождение их blastn, возможно, по большей части обусловлено консервативностью tRNA в принципе.


© SHADRINA О. А. 2011