Standalone BLAST


Поиск в геноме участков, кодирующих белки, похожие на PDXT_BACSU

Чтобы определить, закодированы ли белки, похожие на PDXT_BACSU в геноме Listeria monocytogenes, без использования аннотации генома, был осуществлен поиск программой blastn с порогом на E-value 0,001. Для создания базы данных и поиска использовались следующие команды:

      makeblastndb -in lm_genome.fasta -dbtype nucl 
      tblastn -query pdxt_bacsu.fasta -db lm_genome.fasta -evalue 1e-3 -out Task1_1.txt -outfmt "7"

Результаты поиска занесены в таблицу ниже:

Число находок с E-value < 0,001 2
E-value лучшей находки 6e-57
Название последовательности с лучшей находкой embl:AL591982 Listeria monocytogenes strain EGD, complete genome segment 11/12
Координаты лучшей находки (от-до) 82218-82793
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой 98%

Поиск гомологов некодирующих последовательностей программой BLASTN

Чтобы определить, сколько гомологов каждой из тРНК Bacillus subtilis находит программа BLASTN в геноме Listeria monocytogenes. Была запущена команда:

blastn -task blastn -query trna_bacsu.fasta -db lm_genome.fasta -evalue 1e-2 -outfmt "6" -out trna.txt

Число находок для каждой последовательности было посчитано с помощью скрипта, содержащего следующие строки:

grep	-c	BSn5_t00000	trna.txt	>>	trna.xls

В котором t00000-номер тРНК. Результаты представлены в файле.

Поиск гомологов при изменённых параметрах программы BLASTN

Проделали то же самое, но с другими параметрами программы: -reward и -penalty, в отличие от стандартных значений, изменены на -reward 5 и -penalty -4, а также параметры -gapopen и -gapextend изменены на -gapopen 10 и -gapextend 6:

blastn -task blastn -query trna_bacsu.fasta -db lm_genome.fasta -evalue 1e-2 -outfmt "6" -out trna1.txt
 -reward 5 -penalty -4 -gapopen 10 -gapextend 

Запустили программу с измененными параметрами, но теперь -word_size изменен на минимальное возможное значение:

blastn -task blastn -query trna_bacsu.fasta -db lm_genome.fasta -evalue 1e-2 -outfmt "6" -out trna2.txt
 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4

Результаты представлены в том же файле.



Анализ результатов

Как видно из таблицы, с каждым последующим изменением параметров программы число находок для каждой последовательности тРНК увеличивается, что, вероятно, связано с уменьшением селективности и нахождением более далёких гомологов.
Было построено выравнивание по алгоритму needle для tRNA-Gln BSn5_t20894 и его предположительного гомолога найденного только при поиске с параметром -word_size 4 (embl|AL591983|AL591983 с координатами 41694-41627 обратная цепь):

#=======================================
#
# Aligned_sequences: 2
# 1: BSn5_t20894
# 2: AL591983
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 71
# Identity:      47/71 (66.2%)
# Similarity:    47/71 (66.2%)
# Gaps:           3/71 ( 4.2%)
# Score: 151.0
# 
#
#=======================================

BSn5_t20894        1 tgggctatagccaagcggtaaggcaatggactttgactccgtgatcgttg     50
                      |.||.|||||||||.|||||||||..||.||...|..||.|.|||...|
AL591983           1 -gcgccatagccaagtggtaaggcagaggtctgcaaaacctttatcaccg     49

BSn5_t20894       51 gttcgaatccagctagcccag     71
                     ||||.|||||.|.|.||.|  
AL591983          50 gttcaaatccggttggcgc--     68

Выравнивание не очень хорошее, поскольку этот участок соответствует tRNA-Cys (согласно аннотации EMBL:AL591983), а не tRNA-Gln.