Локальный BLAST| Демкив Андрей

Для этого практикума использвался файл,содержащий в себе записи всех РНК Bacillus subtilis 168 uid57675. Для дальнейшей работы из этого файла были скопированы записи, соотвествующие только misc RNA. Этот делалось с помощью следующих команд:

 infoseq NC_000964.frn |grep "misc_RNA" > flags
seqret @flags misc_RNA.fasta

Также были скачаны файлы с геномом Bacillus_subtilis_spizizenii_TU_B_10_uid73967 в форматах *.gbk и *.fna .

Затем был проведёт standalone megablast, чтобы найти гомологи этих misc RNA в геноме Bacillus_subtilis_spizizenii_TU_B_10_uid73967, команда для этого приведена дальше:

 makeblastdb -in NC_016047.fna -dbtype nucl
blastn -task megablast -query misc_RNA.fasta -db NC_016047.fna -out megablast.out -outfmt 7 -num_alignments 1

Из полученного файла, содержащего информацию о выравнивании была составлена эта таблица.

Для следующего задания в качестве базы данных использвался геном Bacillus_cereus_NC7401_uid82815. Для него было проведено три различных blast: megablast, стандартный blastn и blastn с параметрами (-word_size 4, -penalty -1, -reward 1). По этим ссыкам можно скачать результат работы этих программ. Для всех misc_RNA была сделана таблица, в которой показано, сколько при каждом из этих агоритмов для них нашлось гомологов с e-value < 0.001 . Список команд, который использовался для проведения Blast приведёт ниже

 makeblastdb -in NC_016771.fna -dbtype nucl
 blastn -task megablast -query misc_RNA.fasta -db NC_016771.fna -out megablast_016771.out -outfmt 7 -num_alignments 1
blastn -task blastn -query misc_RNA.fasta -db NC_016771.fna -out blastn_016771.out -outfmt 7 -num_alignments 1
blastn -task blastn -query misc_RNA.fasta -db NC_016771.fna -out blastn_016771_param.out -outfmt 7 -num_alignments 1 -word_size 4 -penalty -1 -reward 1

Для выполнения следующего задания был скачан файл с последовательностями всех предсказанных белков Bacillus_subtilis_spizizenii_TU_B_10_uid73967. С помощью следующих команд был проведён blastx и получен выходной файл.

makeblastdb -in NC_016047.faa -dbtype prot
blastx -query misc_RNA.fasta -db NC_016047.faa -out blastx.out -evalue 0.001 -outfmt 7 -num_alignments 1

Гомологи нашлись для 1, 25, 41, 46, 53, 57, 58, 61, 62 misc_RNA. ПРичём Два белка были не гипотетическими - это 1 - серил-тРНК-синтетаза (seryl-tRNA synthetase) и 46 - аспартокиназа (aspartokinase).

Для проверки зависимости времени работы blastn от длины слова (-word_size) для длины слова от 4 до 16 была выполенна следующая команда, а результаты можно увидеть в таблице 1.

 time blastn -task blastn -query misc_RNA.fasta -db NC_016771.fna -out test.blstn -word_size XX #XX - числот от 4 до 16

Таблица 1. Зависимость времени работы blastn от длины слова

Дина слова	Время работы (в секундах)
4	6.991
5	2.187
6	0.883
7	0.608
8	0.490
9	0.486
10	0.422
11	0.413
12	0.408
13	0.431
14	0.358
15	0.377
16	0.348

Заметно, что с возрастанием длины слова время работы уменьшается, причём сильнее всего идёт уменьшение при увеличении очень маленьких длин слова. Я думаю, что эт связано с тем, что во-первых ужесточяются рамки поиска, а во-вторых просто проходит меньше времени на веребор всех возможных вариантов размещения слова на последовательности. Так как для большей блины слова этих вариантов меньше.