Поиск в геноме участков, кодирующих белки, похожие на заданный
Известна аминокислоиная последовательность белка MANB1_BACSU из бактерии Bacillus subtilis. В задании требовалось определить, закодированы ли похожие белки в геноме термофильной бактерии Bacillus licheniformis, не пользуясь аннотацией генома.
Поисе проводился с помощью пакета BLAST+. Результаты поиска приведены в таблице 1:
Число находок с E-value < 0,001 |
1 |
E-value лучшей находки |
0.0 |
Название последовательности с лучшей находкой |
embl|AE017333|AE017333 |
Координаты лучшей находки (от-до) |
740341-739319 |
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой |
81.52% |
Результаты заданий 2-4 приведены в Excel-файле H:\term3\block3\BLAST\trna.xls
Поиск гомологов некодирующих последовательностей программой BLASTN
При помощи blastn я провёл поиск последовательностей, гомологичных тРНК-кодирующей ДНК Bacillus subtilis BSn5 в геноме Bacillus licheniformis:
blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -out blastn.out -evalue 0.001 -word_size 7 -outfmt 7
Теперь посчитаем, сколько для каждой тРНК было найдено соответсвий:
grep -c "*" tRNA.txt >>wordcount,
где * - название тРНК, скрипт был получен с помощью формулы =CONTAMINATE программы Excel.
Поиск гомологов при изменённых параметрах программы BLASTN
Команду blast применили с другими параметрами:
blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -out blastn11.out -evalue 0.001 -word_size 7 -outfmt 7 -reward 5 -penalty -4 -gapopen 8 -gapextend 6
blastn -task blastn -query trna_bacsu.fasta -db bl_genome.fasta -out blastn2.out -evalue 0.001 -word_size 4 -outfmt 7 -reward 5 -penalty -4 -gapopen 8 -gapextend 6
Анализ результатов
При изменении лишь параметров расчета веса выравнивания прослеживается тенденция к увеличеню числа находок, что говорит о уменьшении спецификации поиска. А дополнительно при уменьшении длины слова BLAST конкретный вывод сделать треудно, поскольку количество некоторых находок увеличивается, а некоторых уменьшается.
Был выбран участок ДНК бактерии B. licheniformis, гомологичный тРНК бактерии B.subtilis BSn5_t20976 tRNA-Met, который находился только при втором наборе параметров BLATN
FT |
tRNA |
Aligned_sequences |
2 |
1 |
AE017333 |
2 |
BSn5_t20976 |
Matrix |
EDNAFULL |
Gap_penalty |
10.0 |
Extend_penalty |
0.5 |
Length |
78 |
Identity |
53/78 (67.9%) |
Similarity |
53/78 (67.9%) |
Gaps |
3/78 ( 3.8%) |
Score |
157.0 |
В банке EMBL имеется запись, подтверждающая, что последовательность, с которой выравнивалась тРНК также является тРНК (product="trnaM2").