"Программа getorf. Поиск гомологов некодирующих последовательностей."

№1 Работа с программой getorf пакета EMBOSS

Командная строка для получения набора трансляций всех открытых рамок считывания getorf -sequence d89965.txt -minsize 30 -table 0 -find 1 -outseq d89965.orf

Пояснения
-sequence d89965.txt файл с последовательностью на вход (можно опустить -sequence)
-sequence d89965.fasta файл с последовательностью на вход (можно опустить -sequence)
-minsize 30 минимальная длина рамки (по умолчанию ставит 30)
-table 0 это таблица генетических кодов (можно опустить, так как по умолчанию стоит 0)
-find 1 трансляция региона, заключенного между старт- и стоп-кодоном (по умолчанию стоит 0 - трансляция между стоп-кодонами)
-outseq d89965.orf файл с результатами

Приведённой в поле FT кодирующей последовательности (CDS) в полученном файле соответсвтует 5 рамка считывания (всего получено 9).Запись swiss-prot соответствует не крысе, а бактерии, что очень забавно. HSLV_ECOLI. Её последовательность соответствует 9 рамке.

> D89965_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for 
RSS, complete cds.
Length=98

 Score =  200 bits (509),  Expect = 1e-56, Method: Compositional matrix adjust.
 Identities = 98/98 (100%), Positives = 98/98 (100%), Gaps = 0/98 (0%)

Query  28   MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  87
            MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR
Sbjct  1    MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  60

Query  88   MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  125
            MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS
Sbjct  61   MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  98

Вполне вероятно, что просто по ошибке был отсеквенирована последовательность кишечной палочки, находящейся в кишечнике крысы, а запись попала в embl под названием крысы.

№2 Поиск гомологов некодирующих последовательностей программой BLASTN

Файл с результатами

№3 Поиск гомологов при изменённых параметрах программы BLASTN

1) blastn -query /P/y11/Term_3/Block_2/trna_bacsu.fasta -db gt -out trna.xls -outfmt 7 -evalue 0.01 -task blastn -reward 5 -penalty -4 -gapopen 10 -gapextend 6

2) blastn -query /P/y11/Term_3/Block_2/trna_bacsu.fasta -db gt -out trna.xls -outfmt 7 -evalue 0.01 -task blastn -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4

3) blastn -query /P/y11/Term_3/Block_2/trna_bacsu.fasta -db gt -out trna.xls -outfmt 7 -evalue 0.01 -task blastn -word_size 4

Файл с результатами

№4 Анализ результатов

Когда мы изменяем значения весовой матрицы -reward 5 и -penalty -4, мы получаем увеличение числа гомологов в большинстве случаев, правда, кое-где наблюдаются и уменьшения. Возможно, это связано с тем, что просто отсеиваются некоторые маленькие последовательности, которые полностью совпадают. При использовании минимального word_size для -penalty -4 и -reward 5 число гомологов почти везде резко подскачило. Это можно объяснить тем, что чем короче слова образуются в ходе работы BLAST, тем большее число последовательностей может быть подобрано. Увеличение также наблюдается и в том случае, когда у нас не подобраны значения -penalty и -reward. Правда, оно не такое резкое.

Был выбран один гомологичный участок 553945-554009, который находится только при -reward 5 и -penalty -4. Привожу выравнивание:

# Aligned_sequences: 2
# 1: CP000557
# 2: BSn5_t21018
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 81
# Identity:      40/81 (49.4%)
# Similarity:    40/81 (49.4%)
# Gaps:          25/81 (30.9%)
# Score: 122.0
# 
#
#=======================================

CP000557           1 ------------cagctggttagagcagacggctcataaccgtccggtcg     38
                                 |||.|.|.|||..|.|..|||||||||||....|||||
BSn5_t21018        1 cgcggggtggagcagttcggtagctcggcgggctcataacccgaaggtcg     50

CP000557          39 taggttcgagtcct---------acaaggtc     60
                     .||||||.|.||||         ||.|    
BSn5_t21018       51 caggttcaaatcctgcccccgcaacca----     77

Процент совпадений не очень высок, однако есть достаточно хорошо совпадающие участки, что говорит о том, что в тРНК имеются консервативные регионы. Стоит отметить, что и в Bacilius и в Geobacillus thermodenitrificans эти участки кодируют метионин транспортную РНК.