Бактерия:
Geobacillus thermodenitrificans
Поиск гомологов белка CRH_BACSU в геноме G.thermodenitrificans:
Число находок с E-value < 0,001 |
2 |
E-value лучшей находки |
3e-39 |
Название последовательности с лучшей находкой |
Geobacillus thermodenitrificans NG80-2, complete genome. |
Координаты лучшей находки (от-до) |
3110327-3110076 |
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой |
84/85 |
Первым делом, монтируем базу данных из генома Geobacillus thermodenitrificans:
> makeblastdb -in gt_genome.fasta -dbtype nucl
Запускаем BLASTN:
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -outfmt 7 -evalue 0.01 -out trna.out
Полученный файл trna.out содержит перечисленные находки соответствующих тРНК. А также, строку, содержащую информацию о количестве тех или иных хитов:
# 8 hits found
При помощи программы grep мы сначала создаем список названий:
grep ">" trna_bacsu.fasta
Далее grep из trna.out вытаскиваем все строки содержащие словосочетание "hits found":
grep "hits found" trna.out
При помощи Excel мы составляем рядом 2 столбца - названия тРНК и полученные числа. Значения столбцов коллинеарны - все названия в trna.out
идут в такомже порядке, как и в trna_bacsu.fasta, и на каждый блок хитов есть единственная запись с указанием их числа.
Далее, мы увеличиваем чувствительность BLASTN:
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -outfmt 7 -evalue 0.01 -out trna.out -reward 5 -penalty -4 -gapopen 8 -gapextend 6
И еще немного чувствительнее,- делаем минимальную длину слова:
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -outfmt 7 -evalue 0.01 -out trna.out -reward 5 -penalty -4 -gapopen 8 -gapextend 6 -word_size 4
Результат:
Таблица с результатами
Для сравнения были взяты последовательности для глутаминовой тРНК: хиты blastn по BSn5_t20894 tRNA-Gln.
При этом последовательности отбирались таким образом, чтобы первая находилась blastn со всеми параметрами,
вторая - только 2мя более чувствительными
вариантами, а третья - только самым чувствительным blastn.
Координаты хитов в геноме Geobacillus thermodenitrifican:
1. 155676 155747 (F) 2. 2966432 2966369 (R) 3. 1191998 1192060 (F)Далее производилось выравнивание этих хитов с исходной тРНК из B. subtilis.
# Length: 72
# Identity: 69/72 (95.8%)
# Similarity: 69/72 (95.8%)
# Gaps: 1/72 ( 1.4%)
# Score: 327.0
BSn5_t20894 1 tgggctatagccaagcggtaaggcaatggactttgactccgtgat-cgtt 49
||||||||||||||||||||||||||.|||||||||||||||||| ||.|
CP000557 1 tgggctatagccaagcggtaaggcaacggactttgactccgtgatgcgct 50
BSn5_t20894 50 ggttcgaatccagctagcccag 71
||||||||||||||||||||||
CP000557 51 ggttcgaatccagctagcccag 72
# Length: 79
# Identity: 47/79 (59.5%)
# Similarity: 47/79 (59.5%)
# Gaps: 23/79 (29.1%)
# Score: 152.0
BSn5_t20894 1 tgggctatagccaagcggtaaggcaatgg--------actttgactccgt 42
||| |||||||||.|||||||||..|| ||.||.||.||
CP000557 1 --ggc-atagccaagtggtaaggcagaggtctgcaaaacctttacccc-- 45
BSn5_t20894 43 gatcgttggttcgaatccagctagcccag 71
.|||||||||||.|.| |||
CP000557 46 ------cggttcgaatccgggt-gcc--- 64
# Length: 74
# Identity: 40/74 (54.1%)
# Similarity: 40/74 (54.1%)
# Gaps: 14/74 (18.9%)
# Score: 98.0
BSn5_t20894 1 tgggctatagccaagcggtaaggcaatggactttgactccgtgatcgttg 50
|.||||.||||.|.|.|.||.||..|.|.|||.||...|| ||.|||
CP000557 1 -gcgctagagccgatccggaaagcgttcggcttagagcgcg---tcattg 46
BSn5_t20894 51 gttcga---atccagctagcccag 71
..|||| |.|.||||
CP000557 47 tctcgacgtaccaagct------- 63
155676..155750
/locus_tag="GTNG_t018"
/product="tRNA-Gln"
На месте второго хита не было обнаружено глутаминовой тРНК, зато он практически совпадает с цистеиновой тРНК, которая находится на тойже самой
цепи в этом месте:
complement(2966362..2966435)
/locus_tag="GTNG_t072"
/product="tRNA-Cys"
На месте третьего хита на данной цепи вообще нет аннотированных генов.