Выполнена команда: getorf -sequence D89965.fasta -minsize 30 -table 0 -find 1 -outseq D89965.orf
Программа getorf осуществляет поиск открытых рамок считывания последовательности
-sequence d89965.fasta файл с последовательностью на вход -minsize 30 минимальная длина рамки (по умолчанию 30) -table 0 таблица генетических кодов (можно не писать, по уполчанию 0) -find 1 открытая раамка считывания включает стоп-кодон -outseq D89965.orf файл с результатом
В поле FT приведена следующая кодирующая последовательность (CDS):
FT CDS 163..435 FT /product="RSS" FT /note="Rat Stomach Serotonin receptor-related gene" FT /db_xref="GOA:P0A7B8" FT /db_xref="InterPro:IPR001353" FT /db_xref="InterPro:IPR022281" FT /db_xref="PDB:1E94" FT /db_xref="PDB:1G4A" FT /db_xref="PDB:1G4B" FT /db_xref="PDB:1HQY" FT /db_xref="PDB:1HT1" FT /db_xref="PDB:1HT2" FT /db_xref="PDB:1NED" FT /db_xref="UniProtKB/Swiss-Prot:P0A7B8" FT /protein_id="BAA14040.1" FT /translation="MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHY FT GIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQSTNPVQKYGA"
Из найденных открытых рамок соответствует приведённой в поле FT кодирующей последовательности (CDS) следующая:
>D89965.1_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds. MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM AVTAYAYYSCHELTPWLRIQSTNPVQKYGA
Таким образом, рамка D89965.1_5 соответствует кодирующей последовательности (данную рамку легко найти "глазами").
Последовательности из Swiss-Prot соответствует 9 рамка.
С помощью blastp получаем:
Query= sp|P0A7B8|HSLV_ECOLI ATP-dependent protease subunit HslV OS=Escherichia coli (strain K12) GN=hslV PE=1 SV=2 Subject= D89965.1_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. Length=98 Score = 200 bits (509), Expect = 2e-57, Method: Compositional matrix adjust. Identities = 98/98 (100%), Positives = 98/98 (100%), Gaps = 0/98 (0%) Query 28 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR 87 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR Sbjct 1 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR 60 Query 88 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS 125 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS Sbjct 61 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS 98
Команда: blastn -query trna_bacsu.fasta -db sa -out trna1.fasta -evalue 0.01 -task blastn -outfmt 7
Команды:
blastn -query trna_bacsu.fasta -db sa -out trna2.fasta -evalue 0.01 -task blastn -outfmt 7 -reward 5 -penalty -4 -gapopen 25 -gapextend 10
blastn -query trna_bacsu.fasta -db sa -out trna3.fasta -evalue 0.01 -task blastn -outfmt 7 -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 4
blastn -query trna_bacsu.fasta -db sa -out trna4.fasta -evalue 0.01 -task blastn -outfmt 7 -word_size 4
При изменении весовой матрицы до значений -reward 5 и -penalty -4 от 2 и -3 по умолчанию соответственно в большинстве случаев произошло
увеличение числа гомологов. При сокращении -word_size от 11 по умолчанию до 4 и при использовании -reward 5
и -penalty -4 число гомологов во всех случаях резко возрастает (скачок составляет до +20 новых гомологов). Это можно объяснить тем, что
чем короче слова образуются в ходе работы BLAST, тем большее число последовательностей может быть подобрано.
Увеличение также наблюдается и без использования -reward 5 и -penalty -4.
Для выравнивания выбрана такая находка, которая находится программой BLAST при одном наборе параметров -по умолчанию - и не находится при другом
(-reward 5 и -penalty -4).
Результат:
# Length: 93 # Identity: 79/93 (84.9%) # Similarity: 79/93 (84.9%) # Gaps: 4/93 ( 4.3%) # Score: 355.0 # # #======================================= BSn5_t20970 1 ggaggaatacccaagtccggctgaagggatcggtcttgaaaaccgacagg 50 ||||||.||||||||||||||||||||||.|||||||||||||||.|||| AL766844 1 ggaggattacccaagtccggctgaagggaacggtcttgaaaaccgtcagg 50 BSn5_t20970 51 ggtgtcaaagcccgcgggggttcgaatccctcttcctccgcca 93 .||||.|||||..|||.|||||||||||||.|.|||||| AL766844 51 cgtgtaaaagcgtgcgtgggttcgaatcccacatcctcc---- 89
Выравнивание показывает, что последовательности гомологичны. Высокий процент сходства наблюдается почти по всему участку.
Проаннотирован в EMBL так: /product="Unknown".
Так как продукт этого участка "неизвестный", то можно предположить, что высокую идентичность выравнивания можно объяснить сходными
структурами тРНК. Различия этих последовательностей заключаются в индивидуальных особенностях разных бактерий, что делает разные живые
организмы не похожими друг на друга.