Программа getorf.
Поиск гомологов некодирующих последовательностей.
  1. Работа с программой getorf пакета EMBOSS

Командная строка:

getorf -sequence d89965.entret -outseq orf_out -find 1 -minsize 30

5ая из найденных открытых рамок соответствует приведённой в поле FT кодирующей последовательности: продукту Rat Stomach Serotonin receptor-related gene.

Запись UniProt, соответствует 9й из найденных открытых рамок считывания

Командная строка для поиска:

blastp -query refseq.fasta -subject orf_out -out refseq_out

9ая ORF соответствует не всей последовательности белка HSLV_ECOLI (из записи UniProt), а только его середине: с 28ого по 125 остатки, хотя сам белок имеет длину 176 остатков.


Query  28   MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  87
            MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR
Sbjct  1    MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  60

Query  88   MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  125
            MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS
Sbjct  61   MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  98

Данный эффект, вероятно, связан с тем, что программа определяет минимальную последовательность между старт- и стоп-кодонами, больше заданного размера, и, следовательно, может перепутать стоп-кодон с кодоном метионина где-нибудь в середине белка. Также, расхождение может быть вызвано вариациями в генетическом коде, наличием дополнительных старт-кодонов, встраиванием минорных аминокислот вместо стоп-кодонов, наличием нескольких стоп-кодонов.



  1. Поиск гомологов некодирующих последовательностей программой BLASTN

Командные строки, использованные при запуске blastn с измененными параметрами:

blastn -task blastn -evalue 0.01 -query trna_bacsu.fasta -db lm -outfmt 6 -out t7_2_out-45 -reward 5 -penalty -4 -gapopen 8 -gapextend 6

blastn -task blastn -evalue 0.01 -query trna_bacsu.fasta -db lm -outfmt 6 -out t7_2_out-45_4 -reward 5 -penalty -4 -gapopen 8 -gapextend 6 -word_size 4

blastn -task blastn -evalue 0.01 -query trna_bacsu.fasta -db lm -outfmt 6 -out t7_2_out_4 -word_size 4



отчетный файл



  1. Анализ результатов

Параметры поиска по умолчанию были reward 2, penalty -3, word size 11.

При уменьшении word size до минимального (4), повышалась точность поиска и число найденных последовательностей в увеличивалось.

При более мягких условиях поиска reward 5 и penalty -4, число находок в среднем незначительно увеличивалось, однако, для некоторых тРНК число находок снизилось.

При параметрах reward 5, penalty -4 и word size 4 было больше всего находок, большинство из которых, однако, вряд ли имеют биологический смысл в контексте поставленной задачи.

Глобальное выравнивание BSn5_t20966 tRNA-Ile из B. subtilis и её вероятного гомолога из L monocytogenes.


BSn5_t20966        1 gggcctgtagctcagctggttagagcgcacgcctgataagcgtgaggtcg     50
                          ||||||||||||||.||||||...||..|.|||..||..||||||
AL591980           1 -----tgtagctcagctggctagagcattcggttcatacccgaaaggtcg     45

BSn5_t20966       51 gtggttcgagtccactcaggcccacca     77
                     ..|||||||.||| |||.|.|.|    
AL591980          46 tgggttcgactcc-ctccgccgc----     67

Найденный участок проаннотирован в записи embl в поле FT следующим образом:


FT   tRNA            complement(91961..92034)
FT                   /product="transfert RNA-Met"
FT                   /note="tRNAscan-SE vs 1.3 result - Cove score = 76.18"

Последовательность из L monocytogenes не находится BLASTN при параметрах по умолчанию, но находится при относительно более мягком штрафе за несоответствие: -reward 5 и -penalty -4. Исходя из высокой консервативности тРНК и того, что вероятнее всего, у последнего общего предка всех современных бактерий был полный набор всех тРНК, данное выравнивание не имеет биологического смысла, так как находит негомологичные тРНК - метиониновую и изолейциновую. Это происходит потому, что все тРНК между собой являются паралогами и высоко консервативны внутри группы.




© Eugenia Zotova