Getorf

Программа getorf. Поиск гомологов некодирующих последовательностей

1) Работа с программой getorf пакета EMBOSS

Использованная команда:

getorf -sequence D89965.fasta -outseq D89965.orf -find 1 

-minsize 30    не обязательно писать, т.к. стоит по умолчанию
-table 0    таблица стандартного генетического кода, тоже стоит по умолчанию

один из результатов getorf:
>D89965_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
AVTAYAYYSCHELTPWLRIQSTNPVQKYGA
совпал с последовательностью закодированного белка P0A7B8 из CDS 
записи D89965 в EMBL 

Запись в Swiss Prot совпадает с 9 рамкой getorf, начиная с 28 позиции

Запись в Swiss Prot белка P0A7B8:
MTTIVSVRRN GHVVIAGDGQ ATLGNTVMKG NVKKVRRLYN DKVIAGFAGG TADAFTLFEL
FERKLEMHQG HLVKAAVELA KDWRTDRMLR KLEALLAVAD ETASLIITGN GDVVQPENDL
IAIGSGGPYA QAAARALLEN TELSAREIAE KALDIAGDIC IYTNHFHTIE ELSYKA

Вероятно, такое несовпадение вызвано тем, что в банке EMBL лежат некурируемые последовательности, =>
есть вероятность ошибки (несовпадения с SwissProt, которому мы верим, т.к. SwissProt- курируемая БД).
В данном случае мы и наблюдаем такую ошибку. Т.к. в записи SwissProt лежит белок Escherichia coli =>
можно предположить, что вместо геном мыши был отсеквинирован геном бактерии (кишечной палочки),
живущей у нее в кишечнике.

2) Поиск гомологов некодирующих последовательностейпрограммой BLASTN

blastn -query trna_bacsu.fasta -db pp -out E -evalue 0.01 -task blastn -outfmt 7

Результаты (Первый столбец)

3) Поиск гомологов при измененных параметрах программы BLASTN


1) blastn -query trna_bacsu.fasta -db pp -out E2 -evalue 0.01 -task blastn -outfmt 7 -reward 5 -penalty -4 -gapopen 10 -gapextend 6
		  
2) blastn -query trna_bacsu.fasta -db pp -out E3 -evalue 0.01 -task blastn -outfmt 7 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4
          
3)* blastn -query trna_bacsu.fasta -db pp -out E4 -evalue 0.01 -task blastn -outfmt 7  -word_size 4

Результаты

4) Анализ результатов

При увеличении penalty и reward до -4 и 5 соответственно, увеличилось число нахлдок, т.к. при 
значениях penalty и reward по умолчанию, значение -p по модулю выше -r => "выше цена ошибки" => при 
p = -4 и r = 5 больше находок, т.к. выше вес выравнивания. Поэтому рассматриваемый мною участок был найден только при 
p= -4 и r= 5. При увеличении длины слова до 11, мой фрагмент не был найден из-за того, что в нем нет 11
подряд выравненных нуклеотидов, т.е. невыравненные нуклеотиды расположены равномерно. Т.к. в 
моем примере Identity= 63% => при значении r < p в 1.5 раз,значение scre будет слабо положительным.
При значении r > p в 1.25 раз, значение score будет достаточно > 0, чтобы выравнивание было отображено.

 
  
  
Участок в геноме:

gene 462589..462659 
locus_tag PPSC2_ct030  
tRNA 462589..462659 
locus_tag PPSC2_ct030  
product tRNA-Cys  
 
Выравнивается с 462590 - 462657 участком (BSn5_t20894)

# Aligned_sequences: 2
# 1: BSn5_t20894
# 2: genome.
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 73
# Identity:      46/73 (63.0%)
# Similarity:    46/73 (63.0%)
# Gaps:           7/73 ( 9.6%)
# Score: 129.0
# 
#
#=======================================

BSn5_t20894        1 tgggctatagccaagcggtaaggcaatggactttg--actccgtgatcgt     48
                      |.||.|||||||||.||||||||||.|  ||.||  |...|.|.|||..
genome.            1 -gcgccatagccaagtggtaaggcaaag--ctctgcaaaagcttcatccc     47

BSn5_t20894       49 tggttcgaatccagctagcccag     71
                     ..||||.||||..|.|.||.|  
genome.           48 cagttcaaatctgggtggcgc--     68


#---------------------------------------
#---------------------------------------

Две тРНК, очевидно, гомологичны, но при этом выравнивание показало, что последовательности не идентичны.
Вероятно это связано с тем, что эти бактерии не являются близкородственными видами => в эволюции могли 
возникнуть мутации в нуклеотидах различных петель (что не редкость для тРНК). Также в тРНК встречаются
парные мутации в стеблях, сохраняющие комплементарность пары. Накапливаясь эти мутации приводят к умень-
шению идентичности.
Вторая причина заключается в том, что две тРНК имеют разную специфичность (tRNA-Gln и tRNA-Сys) =>
отличаются и последовательности.

Главная страница (см. ниже)