№1 Работа с программой getorf пакета EMBOSS
Командная строка для получения набора трансляций всех открытых рамок считывания getorf -sequence d89965.txt -minsize 30 -table 0 -find 1 -outseq d89965.orf
-sequence d89965.txt | файл с последовательностью на вход (можно опустить -sequence) |
-sequence d89965.fasta | файл с последовательностью на вход (можно опустить -sequence) |
-minsize 30 | минимальная длина рамки (по умолчанию ставит 30) |
-table 0 | это таблица генетических кодов (можно опустить, так как по умолчанию стоит 0) |
-find 1 | трансляция региона, заключенного между старт- и стоп-кодоном (по умолчанию стоит 0 - трансляция между стоп-кодонами) |
-outseq d89965.orf | файл с результатами |
Приведённой в поле FT кодирующей последовательности (CDS) в полученном файле соответсвтует 5 рамка считывания (всего получено 9).Запись swiss-prot соответствует не крысе, а бактерии, что очень забавно. HSLV_ECOLI. Её последовательность соответствует 9 рамке.
> D89965_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. Length=98 Score = 200 bits (509), Expect = 1e-56, Method: Compositional matrix adjust. Identities = 98/98 (100%), Positives = 98/98 (100%), Gaps = 0/98 (0%) Query 28 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR 87 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR Sbjct 1 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR 60 Query 88 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS 125 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS Sbjct 61 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS 98
Вполне вероятно, что просто по ошибке был отсеквенирована последовательность кишечной палочки, находящейся в кишечнике крысы, а запись попала в embl под названием крысы.
№2 Поиск гомологов некодирующих последовательностей программой BLASTN
№3 Поиск гомологов при изменённых параметрах программы BLASTN
1) blastn -query /P/y11/Term_3/Block_2/trna_bacsu.fasta -db gt -out trna.xls -outfmt 7 -evalue 0.01 -task blastn -reward 5 -penalty -4 -gapopen 10 -gapextend 6
2) blastn -query /P/y11/Term_3/Block_2/trna_bacsu.fasta -db gt -out trna.xls -outfmt 7 -evalue 0.01 -task blastn -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4
3) blastn -query /P/y11/Term_3/Block_2/trna_bacsu.fasta -db gt -out trna.xls -outfmt 7 -evalue 0.01 -task blastn -word_size 4
№4 Анализ результатов
Когда мы изменяем значения весовой матрицы -reward 5 и -penalty -4, мы получаем увеличение числа гомологов в большинстве случаев, правда, кое-где наблюдаются и уменьшения. Возможно, это связано с тем, что просто отсеиваются некоторые маленькие последовательности, которые полностью совпадают. При использовании минимального word_size для -penalty -4 и -reward 5 число гомологов почти везде резко подскачило. Это можно объяснить тем, что чем короче слова образуются в ходе работы BLAST, тем большее число последовательностей может быть подобрано. Увеличение также наблюдается и в том случае, когда у нас не подобраны значения -penalty и -reward. Правда, оно не такое резкое.
Был выбран один гомологичный участок 553945-554009, который находится только при -reward 5 и -penalty -4. Привожу выравнивание:
# Aligned_sequences: 2 # 1: CP000557 # 2: BSn5_t21018 # Matrix: EDNAFULL # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 81 # Identity: 40/81 (49.4%) # Similarity: 40/81 (49.4%) # Gaps: 25/81 (30.9%) # Score: 122.0 # # #======================================= CP000557 1 ------------cagctggttagagcagacggctcataaccgtccggtcg 38 |||.|.|.|||..|.|..|||||||||||....||||| BSn5_t21018 1 cgcggggtggagcagttcggtagctcggcgggctcataacccgaaggtcg 50 CP000557 39 taggttcgagtcct---------acaaggtc 60 .||||||.|.|||| ||.| BSn5_t21018 51 caggttcaaatcctgcccccgcaacca---- 77
Процент совпадений не очень высок, однако есть достаточно хорошо совпадающие участки, что говорит о том, что в тРНК имеются консервативные регионы. Стоит отметить, что и в Bacilius и в Geobacillus thermodenitrificans эти участки кодируют метионин транспортную РНК.