Бактерия:
Geobacillus thermodenitrificans
Поиск гомологов белка CRH_BACSU в геноме G.thermodenitrificans:
Число находок с E-value < 0,001 |
2 |
E-value лучшей находки |
3e-39 |
Название последовательности с лучшей находкой |
Geobacillus thermodenitrificans NG80-2, complete genome. |
Координаты лучшей находки (от-до) |
3110327-3110076 |
Доля последовательности вашего белка, вошедшая в выравнивание с лучшей находкой |
84/85 |
Первым делом, монтируем базу данных из генома Geobacillus thermodenitrificans:
> makeblastdb -in gt_genome.fasta -dbtype nucl
Запускаем BLASTN:
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -outfmt 7 -evalue 0.01 -out trna.out
Полученный файл trna.out содержит перечисленные находки соответствующих тРНК. А также, строку, содержащую информацию о количестве тех или иных хитов:
# 8 hits found
При помощи программы grep мы сначала создаем список названий:
grep ">" trna_bacsu.fasta
Далее grep из trna.out вытаскиваем все строки содержащие словосочетание "hits found":
grep "hits found" trna.out
При помощи Excel мы составляем рядом 2 столбца - названия тРНК и полученные числа. Значения столбцов коллинеарны - все названия в trna.out
идут в такомже порядке, как и в trna_bacsu.fasta, и на каждый блок хитов есть единственная запись с указанием их числа.
Далее, мы увеличиваем чувствительность BLASTN:
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -outfmt 7 -evalue 0.01 -out trna.out -reward 5 -penalty -4 -gapopen 8 -gapextend 6
И еще немного чувствительнее,- делаем минимальную длину слова:
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -outfmt 7 -evalue 0.01 -out trna.out -reward 5 -penalty -4 -gapopen 8 -gapextend 6 -word_size 4
Результат:
Таблица с результатами
Для сравнения были взяты последовательности для глутаминовой тРНК: хиты blastn по BSn5_t20894 tRNA-Gln.
При этом последовательности отбирались таким образом, чтобы первая находилась blastn со всеми параметрами,
вторая - только 2мя более чувствительными
вариантами, а третья - только самым чувствительным blastn.
Координаты хитов в геноме Geobacillus thermodenitrifican:
1. 155676 155747 (F) 2. 2966432 2966369 (R) 3. 1191998 1192060 (F)Далее производилось выравнивание этих хитов с исходной тРНК из B. subtilis.
# Length: 72 # Identity: 69/72 (95.8%) # Similarity: 69/72 (95.8%) # Gaps: 1/72 ( 1.4%) # Score: 327.0 BSn5_t20894 1 tgggctatagccaagcggtaaggcaatggactttgactccgtgat-cgtt 49 ||||||||||||||||||||||||||.|||||||||||||||||| ||.| CP000557 1 tgggctatagccaagcggtaaggcaacggactttgactccgtgatgcgct 50 BSn5_t20894 50 ggttcgaatccagctagcccag 71 |||||||||||||||||||||| CP000557 51 ggttcgaatccagctagcccag 72
# Length: 79 # Identity: 47/79 (59.5%) # Similarity: 47/79 (59.5%) # Gaps: 23/79 (29.1%) # Score: 152.0 BSn5_t20894 1 tgggctatagccaagcggtaaggcaatgg--------actttgactccgt 42 ||| |||||||||.|||||||||..|| ||.||.||.|| CP000557 1 --ggc-atagccaagtggtaaggcagaggtctgcaaaacctttacccc-- 45 BSn5_t20894 43 gatcgttggttcgaatccagctagcccag 71 .|||||||||||.|.| ||| CP000557 46 ------cggttcgaatccgggt-gcc--- 64
# Length: 74 # Identity: 40/74 (54.1%) # Similarity: 40/74 (54.1%) # Gaps: 14/74 (18.9%) # Score: 98.0 BSn5_t20894 1 tgggctatagccaagcggtaaggcaatggactttgactccgtgatcgttg 50 |.||||.||||.|.|.|.||.||..|.|.|||.||...|| ||.||| CP000557 1 -gcgctagagccgatccggaaagcgttcggcttagagcgcg---tcattg 46 BSn5_t20894 51 gttcga---atccagctagcccag 71 ..|||| |.|.|||| CP000557 47 tctcgacgtaccaagct------- 63
155676..155750 /locus_tag="GTNG_t018" /product="tRNA-Gln"На месте второго хита не было обнаружено глутаминовой тРНК, зато он практически совпадает с цистеиновой тРНК, которая находится на тойже самой цепи в этом месте:
complement(2966362..2966435) /locus_tag="GTNG_t072" /product="tRNA-Cys"На месте третьего хита на данной цепи вообще нет аннотированных генов.