Lonely BLAST




Standalone BLAST

Бактерия:
Geobacillus thermodenitrificans

Поиск гомологов белка CRH_BACSU в геноме G.thermodenitrificans:

Число находок с E-value < 0,001

2

E-value лучшей находки

3e-39

Название последовательности с лучшей находкой

Geobacillus thermodenitrificans NG80-2, complete genome.

Координаты лучшей находки (от-до)

3110327-3110076

Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой

84/85

Поиск гомологов некодирующих последовательностей программой BLASTN

Первым делом, монтируем базу данных из генома Geobacillus thermodenitrificans:

> makeblastdb -in gt_genome.fasta -dbtype nucl

Запускаем BLASTN:

blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -outfmt 7 -evalue 0.01 -out trna.out

Полученный файл trna.out содержит перечисленные находки соответствующих тРНК. А также, строку, содержащую информацию о количестве тех или иных хитов:

# 8 hits found

При помощи программы grep мы сначала создаем список названий:

grep ">" trna_bacsu.fasta

Далее grep из trna.out вытаскиваем все строки содержащие словосочетание "hits found":

grep "hits found" trna.out

При помощи Excel мы составляем рядом 2 столбца - названия тРНК и полученные числа. Значения столбцов коллинеарны - все названия в trna.out идут в такомже порядке, как и в trna_bacsu.fasta, и на каждый блок хитов есть единственная запись с указанием их числа.
Далее, мы увеличиваем чувствительность BLASTN: blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -outfmt 7 -evalue 0.01 -out trna.out -reward 5 -penalty -4 -gapopen 8 -gapextend 6
И еще немного чувствительнее,- делаем минимальную длину слова: blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -outfmt 7 -evalue 0.01 -out trna.out -reward 5 -penalty -4 -gapopen 8 -gapextend 6 -word_size 4

Результат: Таблица с результатами

Анализ результатов

Для сравнения были взяты последовательности для глутаминовой тРНК: хиты blastn по BSn5_t20894 tRNA-Gln. При этом последовательности отбирались таким образом, чтобы первая находилась blastn со всеми параметрами, вторая - только 2мя более чувствительными вариантами, а третья - только самым чувствительным blastn.

Координаты хитов в геноме Geobacillus thermodenitrifican:

1.   155676	155747   (F)
2.   2966432	2966369  (R)
3.   1191998	1192060  (F)
Далее производилось выравнивание этих хитов с исходной тРНК из B. subtilis.
Выравнивание производилось программой needle с параметрами по-умолчанию:
Gap_penalty: 10.0 Extend_penalty: 0.5

Первое выравнивание:


# Length: 72
# Identity:      69/72 (95.8%)
# Similarity:    69/72 (95.8%)
# Gaps:           1/72 ( 1.4%)
# Score: 327.0


BSn5_t20894        1 tgggctatagccaagcggtaaggcaatggactttgactccgtgat-cgtt     49
                     ||||||||||||||||||||||||||.|||||||||||||||||| ||.|
CP000557           1 tgggctatagccaagcggtaaggcaacggactttgactccgtgatgcgct     50

BSn5_t20894       50 ggttcgaatccagctagcccag     71
                     ||||||||||||||||||||||
CP000557          51 ggttcgaatccagctagcccag     72

Второе выравнивание


# Length: 79
# Identity:      47/79 (59.5%)
# Similarity:    47/79 (59.5%)
# Gaps:          23/79 (29.1%)
# Score: 152.0


BSn5_t20894        1 tgggctatagccaagcggtaaggcaatgg--------actttgactccgt     42
                       ||| |||||||||.|||||||||..||        ||.||.||.||  
CP000557           1 --ggc-atagccaagtggtaaggcagaggtctgcaaaacctttacccc--     45

BSn5_t20894       43 gatcgttggttcgaatccagctagcccag     71
                           .|||||||||||.|.| |||   
CP000557          46 ------cggttcgaatccgggt-gcc---     64

Третье выравнивание:


# Length: 74
# Identity:      40/74 (54.1%)
# Similarity:    40/74 (54.1%)
# Gaps:          14/74 (18.9%)
# Score: 98.0


BSn5_t20894        1 tgggctatagccaagcggtaaggcaatggactttgactccgtgatcgttg     50
                      |.||||.||||.|.|.|.||.||..|.|.|||.||...||   ||.|||
CP000557           1 -gcgctagagccgatccggaaagcgttcggcttagagcgcg---tcattg     46

BSn5_t20894       51 gttcga---atccagctagcccag     71
                     ..||||   |.|.||||       
CP000557          47 tctcgacgtaccaagct-------     63

Как легко заметить при сравнении выравниваний, первое - самое лучшее, а последнее - самое плохое. Это говорит о том, что первый хит - наиболее близкий гомолог тРНК из B. subtilis, а последний - самый далекий. При этом, третий хит ищется blastn, только если взять длину "слова" - минимально допустимую - 4 нуклеотида. А второй находится, только если изменить параметры поиска по-умолчанию: -reward 5 -penalty -4 -gapopen 8 -gapextend 6.

Такое качество хитов и избирательность поиска разными вариантами blastn говорит о том, что чувствительность программы можно увеличивать, меняя ее параметры.

Анализируя запись генома Geobacillus thermodenitrificans в EMBL(AC=CP000557 ), было обнаружено, что на месте первого найденного хита действительно аннотирована глутаминовая тРНК, правда, правая граница на 4 нуклеотида дальше, чем в выравнивани:

155676..155750
                     /locus_tag="GTNG_t018"
                     /product="tRNA-Gln"
На месте второго хита не было обнаружено глутаминовой тРНК, зато он практически совпадает с цистеиновой тРНК, которая находится на тойже самой цепи в этом месте:

complement(2966362..2966435)
                     /locus_tag="GTNG_t072"
                     /product="tRNA-Cys"
На месте третьего хита на данной цепи вообще нет аннотированных генов.


© 2013; Sutormin Dmitry