Зная аминокислотную последовательность белка TENA_BACSU из Bacillus subtilis, нужно определить, закодированы ли похожие белки в геноме другого организма. С этой целью можно воспользоваться программами пакета BLAST.
Создадим индексные файлы пакета BLAST+ для поиска по геному бактерии Streptococcus agalactiae с помощью следующей команды:
makeblastdb -in sa_genome.fasta -out sa -dbtype nucl
Затем воспользуемся программой TBLASTN для поиска гомологов белка TENA_BACSU по геному бактерии Streptococcus agalactiae. Для этого выполним соответствующую команду с необходимыми параметрами:
tblastn -query tena_bacsu.fasta -db sa -out tena_sa.txt -evalue 0.001
По результатам поиска, сохранённым в файле tena_sa.txt, заполним таблицу.
| Число находок с E-value < 0,001 | 1 |
| E-value лучшей находки | 6e-15 |
| Название последовательности с лучшей находкой | Streptococcus agalactiae NEM316 complete genome, segment 5 (AL766847) |
| Координаты лучшей находки | 97660 - 98277 |
| Доля последовательности белка TENA_BACSU, вошедшая в выравнивание с лучшей находкой | 199/236 ≈ 0.84 |
blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out trna.out -evalue 0.01 -outfmt 7Затем с помощью команды grep из исходного файла был получен список названий тРНК, а из конечного - количество хитов на каждую тРНК. Проделанные выше операции повторили еще 2 раза, но с измененными параметрами. Была изменена весовая матрица. В первом случае были изменены параметры reward и penalty, равные 5 и -4 соответственно. После этого были определены параметры gapopen и gapextend, которые принимают значения 25 и 10 соответственно. Команда, с помощью которой были получены результаты:
blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out trna.out -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -evalue 0.01 -outfmt 7Затем помимо этих двух параметров был задан параметр word_size со значением 7 (минимальное значение для работы программы).
blastn -task blastn -query trna_bacsu.fasta -db sa_genome.fasta -out trna.out -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 7 -evalue 0.01 -outfmt 7Для выходных файлов команд с измененными параметрами был запущен скрипт, который использовался с параметрами по умолчанию. Таблица с количеством хитов на каждый из 3 запусков BLASTN приведена в файле.
При изменении только параметров расчета веса выравнивания можно предположить, что идет тенденция к увеличеню числа находок, что свидетельствует об уменьшении спецификации поиска. Когда уменьшаем еще и длину слова конкретный вывод сделать трудно, поскольку количество некоторых находок увеличивается, а некоторых уменьшается.
Была выбрана треониновая тРНК:
Это треониновая тРНК из Streptococcus agalactiae
>AL766845 AL766845.1 Streptococcus agalactiae NEM316 complete genome, segment 3
gccggcttagctcagttggtagagcatctgatttgtaatcagagggtcgcgtgttcaagt
catgtagccggca
Это треониновая тРНК из Bacillus subtilis
>BSn5_t20996 tRNA-Thr
gccggtgtagctcaattggtagagcgcctgacttgtaagcagtggattgggggttcaagt
cctcttgccggca
Их выравнивание
########################################
# Program: needle
# Rundate: Tue 3 Dec 2013 21:50:07
# Commandline: needle
# [-asequence] 5.fasta
# [-bsequence] 6b.fasta
# -outfile olo.needle
# Align_format: srspair
# Report_file: olo.needle
########################################
#=======================================
#
# Aligned_sequences: 2
# 1: AL766845
# 2: BSn5_t20996
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 73
# Identity: 58/73 (79.5%)
# Similarity: 58/73 (79.5%)
# Gaps: 0/73 ( 0.0%)
# Score: 230.0
#
#
#=======================================
AL766845 1 gccggcttagctcagttggtagagcatctgatttgtaatcagagggtcgc 50
|||||..|||||||.||||||||||..||||.||||||.|||.||.|.|.
BSn5_t20996 1 gccggtgtagctcaattggtagagcgcctgacttgtaagcagtggattgg 50
AL766845 51 gtgttcaagtcatgtagccggca 73
|.|||||||||.|.|.|||||||
BSn5_t20996 51 gggttcaagtcctcttgccggca 73
#---------------------------------------
#---------------------------------------
Их выравнивание вроде бы очень хорошее. Наверное потому, что это тРНК, и без этой консервативной структуры она не смогла бы выполнять свои функции. И, кстати, в нотации EMBL в Streptococcus agalactiae это тоже треониновая тРНК. Почему она нашлась только в поиске с более коротким словом (см. параметры) - видимо это связано с какими-то отклонениями.