Программа getorf.Поиск гомологов некодирующих последовательностей.1. Работа с программой getorf пакета EMBOSSКомандная строка:getorf -sequence D.fasta -outseq lala.orf -minsize 30 -find 1 Рамка,соответствующая приведённой в поле FT кодирующей последовательности (CDS):D89965.1_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds. MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM AVTAYAYYSCHELTPWLRIQSTNPVQKYGA Последовательность Swiss-Prot,на которую ссылается данная запись EMBL,соответствует полученная рамка:>D89965.1_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS Для поиска рамки было построено выранивание BLAST:Score = 200 bits (509), Expect = 6e-57, Method: Compositional matrix adjust. Identities = 98/98 (100%), Positives = 98/98 (100%), Gaps = 0/98 (0%) Query 28 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR 87 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR Sbjct 1 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR 60 Query 88 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS 125 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS Sbjct 61 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS 98Найденная рамка считывания соответсвует центральной части последовательности Swiss-Prot. Причина различия заколючается в том,что нуклеотидная последовательность была взята из одного организма (Rattus norvegicus), а белок,согласно записи Swiss-Prot,принадлежит Escherichia coli. Данный белок - протеаза и ,возможно,центральная часть последовательности- активный центр, одинаков для двух организмов. 2. Поиск гомологов некодирующих последовательностей программой BLASTNКомандная строка для blastn:blastn -query trna_bacsu.fasta -db pp -evalue 0.01 -task blastn -out trna -outfmt 6 Командная строка для замены весовой матрицы:blastn -query trna_bacsu.fasta -task blastn -db pp -out trna2 -evalue 0.01 -outfmt 6 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 Командная строка при минимальном значении word size:blastn -query trna_bacsu.fasta -task blastn -db pp -out trna3 -evalue 0.01 -outfmt 6 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 Отчетный Excel-файл для упражнений 2-3Анализ результатовЧисло найденных гомологов при изменении параметров расчёта веса выравнивания и изменении длины слова увеличивается, более значительно -в случае замены значения параметра -word_size на минимально возможное.BSn5_t20980 embl|CP002213|CP002213 80.36 56 9 1 8 61 3721900 3721845 9e-06 43.1 Данная пара не находится программой BLAST при стандартных параметрах и изменении весовой матрицы,но находится при замене параметра -word_size (т.к. он наименее лимитирующий из указанных)Выравнивание needle: BSn5_t20980 1 tccgcagtagctcagt--ggtagagctatcggctgttaaccgatcggtcg 48 ||||||||| |.||||||..||||||..||||||||.||||| CP002213 1 -------tagctcagttggttagagcggtcggctcataaccgattggtcg 43 BSn5_t20980 49 taggttcgaatcctacctgcggagcca 75 ..|||||||.||| CP002213 44 ggggttcgagtcc-------------- 56Характеристика выравнивания: Length: 80 Identity: 37/80 (46.2%) Similarity: 37/80 (46.2%) Gaps: 29/80 (36.2%) Score: 70.0По выравниванию видно,что начало и конец последовательности выровнены плохо, на самом деле эти части соответсвуют акцепторным черешкам тРНК. Для каждой транспортной РНК они специфичны,т.к. отвечают за связываение каждый со своей аминокислотой,отсюда их неконсервативность. В поле FT записи EMBL гомологичный участок проаннотирован : FT gene complement(3721834..3721907) FT /locus_tag="PPSC2_ct067" FT tRNA complement(3721834..3721907) FT /locus_tag="PPSC2_ct067" FT /product="tRNA-Met"У P.polymyxa метиониновая РНК, у Bacillus subtilis - tRNA-Asn. Отсюда различия в последовательностях и низкий процент идентичности (+ не совсем удачно выбранная пара,т.к. замена min значения word size -не очень сильный агрумент для выбора наиболее сходных последовательностей) |