- Работа с программой getorf пакета EMBOSS
Командная строка:
getorf -sequence d89965.entret -outseq orf_out -find 1 -minsize 30
5ая из найденных открытых рамок соответствует приведённой в поле FT кодирующей последовательности: продукту Rat Stomach Serotonin receptor-related gene.
Запись UniProt, соответствует 9й из найденных открытых рамок считывания
Командная строка для поиска:
blastp -query refseq.fasta -subject orf_out -out refseq_out
9ая ORF соответствует не всей последовательности белка HSLV_ECOLI (из записи UniProt), а только его середине: с 28ого по 125 остатки, хотя сам белок имеет длину 176 остатков.
Query 28 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR 87 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR Sbjct 1 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR 60 Query 88 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS 125 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS Sbjct 61 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS 98
Данный эффект, вероятно, связан с тем, что программа определяет минимальную последовательность между старт- и стоп-кодонами, больше заданного размера, и, следовательно, может перепутать стоп-кодон с кодоном метионина где-нибудь в середине белка. Также, расхождение может быть вызвано вариациями в генетическом коде, наличием дополнительных старт-кодонов, встраиванием минорных аминокислот вместо стоп-кодонов, наличием нескольких стоп-кодонов.
- Поиск гомологов некодирующих последовательностей программой BLASTN
Командные строки, использованные при запуске blastn с измененными параметрами:
blastn -task blastn -evalue 0.01 -query trna_bacsu.fasta -db lm -outfmt 6 -out t7_2_out-45 -reward 5 -penalty -4 -gapopen 8 -gapextend 6
blastn -task blastn -evalue 0.01 -query trna_bacsu.fasta -db lm -outfmt 6 -out t7_2_out-45_4 -reward 5 -penalty -4 -gapopen 8 -gapextend 6 -word_size 4
blastn -task blastn -evalue 0.01 -query trna_bacsu.fasta -db lm -outfmt 6 -out t7_2_out_4 -word_size 4
- Анализ результатов
Параметры поиска по умолчанию были reward 2, penalty -3, word size 11.
При уменьшении word size до минимального (4), повышалась точность поиска и число найденных последовательностей в увеличивалось.
При более мягких условиях поиска reward 5 и penalty -4, число находок в среднем незначительно увеличивалось, однако, для некоторых тРНК число находок снизилось.
При параметрах reward 5, penalty -4 и word size 4 было больше всего находок, большинство из которых, однако, вряд ли имеют биологический смысл в контексте поставленной задачи.
Глобальное выравнивание BSn5_t20966 tRNA-Ile из B. subtilis и её вероятного гомолога из L monocytogenes.
BSn5_t20966 1 gggcctgtagctcagctggttagagcgcacgcctgataagcgtgaggtcg 50 ||||||||||||||.||||||...||..|.|||..||..|||||| AL591980 1 -----tgtagctcagctggctagagcattcggttcatacccgaaaggtcg 45 BSn5_t20966 51 gtggttcgagtccactcaggcccacca 77 ..|||||||.||| |||.|.|.| AL591980 46 tgggttcgactcc-ctccgccgc---- 67
Найденный участок проаннотирован в записи embl в поле FT следующим образом:
FT tRNA complement(91961..92034) FT /product="transfert RNA-Met" FT /note="tRNAscan-SE vs 1.3 result - Cove score = 76.18"
Последовательность из L monocytogenes не находится BLASTN при параметрах по умолчанию, но находится при относительно более мягком штрафе за несоответствие: -reward 5 и -penalty -4. Исходя из высокой консервативности тРНК и того, что вероятнее всего, у последнего общего предка всех современных бактерий был полный набор всех тРНК, данное выравнивание не имеет биологического смысла, так как находит негомологичные тРНК - метиониновую и изолейциновую. Это происходит потому, что все тРНК между собой являются паралогами и высоко консервативны внутри группы.