Локальный BLAST

Для этого практикума использвался файл,содержащий в себе записи всех РНК Bacillus subtilis 168 uid57675. Для дальнейшей работы из этого файла были скопированы записи, соотвествующие только misc RNA. Этот делалось с помощью следующих команд:

infoseq NC_000964.frn |grep "misc_RNA" > flags
seqret @flags misc_RNA.fasta

Также были скачаны файлы с геномом Bacillus_subtilis_spizizenii_TU_B_10_uid73967 в форматах *.gbk и *.fna .

Затем был проведёт standalone megablast, чтобы найти гомологи этих misc RNA в геноме Bacillus_subtilis_spizizenii_TU_B_10_uid73967, команда для этого приведена дальше:

makeblastdb -in NC_016047.fna -dbtype nucl
blastn -task megablast -query misc_RNA.fasta -db NC_016047.fna -out megablast.out -outfmt 7 -num_alignments 1

Из полученного файла, содержащего информацию о выравнивании была составлена эта таблица.

Для следующего задания в качестве базы данных использвался геном Bacillus_cereus_NC7401_uid82815. Для него было проведено три различных blast: megablast, стандартный blastn и blastn с параметрами (-word_size 4, -penalty -1, -reward 1). По этим ссыкам можно скачать результат работы этих программ. Для всех misc_RNA была сделана таблица, в которой показано, сколько при каждом из этих агоритмов для них нашлось гомологов с e-value < 0.001 . Список команд, который использовался для проведения Blast приведёт ниже

makeblastdb -in NC_016771.fna -dbtype nucl
blastn -task megablast -query misc_RNA.fasta -db NC_016771.fna -out megablast_016771.out -outfmt 7 -num_alignments 1
blastn -task blastn -query misc_RNA.fasta -db NC_016771.fna -out blastn_016771.out -outfmt 7 -num_alignments 1
blastn -task blastn -query misc_RNA.fasta -db NC_016771.fna -out blastn_016771_param.out -outfmt 7 -num_alignments 1 -word_size 4 -penalty -1 -reward 1

Для выполнения следующего задания был скачан файл с последовательностями всех предсказанных белков Bacillus_subtilis_spizizenii_TU_B_10_uid73967. С помощью следующих команд был проведён blastx и получен выходной файл.

makeblastdb -in NC_016047.faa -dbtype prot
blastx -query misc_RNA.fasta -db NC_016047.faa -out blastx.out -evalue 0.001 -outfmt 7 -num_alignments 1

Гомологи нашлись для 1, 25, 41, 46, 53, 57, 58, 61, 62 misc_RNA. ПРичём Два белка были не гипотетическими - это 1 - серил-тРНК-синтетаза (seryl-tRNA synthetase) и 46 - аспартокиназа (aspartokinase).

Для проверки зависимости времени работы blastn от длины слова (-word_size) для длины слова от 4 до 16 была выполенна следующая команда, а результаты можно увидеть в таблице 1.

time blastn -task blastn -query misc_RNA.fasta -db NC_016771.fna -out test.blstn -word_size XX #XX - числот от 4 до 16

Таблица 1. Зависимость времени работы blastn от длины слова
Дина слова Время работы (в секундах)
4 6.991
5 2.187
6 0.883
7 0.608
8 0.490
9 0.486
10 0.422
11 0.413
12 0.408
13 0.431
14 0.358
15 0.377
16 0.348

Заметно, что с возрастанием длины слова время работы уменьшается, причём сильнее всего идёт уменьшение при увеличении очень маленьких длин слова. Я думаю, что эт связано с тем, что во-первых ужесточяются рамки поиска, а во-вторых просто проходит меньше времени на веребор всех возможных вариантов размещения слова на последовательности. Так как для большей блины слова этих вариантов меньше.

© Демкив Андрей 2013 Дата последнего изменения: 29.05.2015