Локальный BLAST |
|||||||||||||||||||||||||||||
Для этого практикума использвался файл,содержащий в себе записи всех РНК Bacillus subtilis 168 uid57675. Для дальнейшей работы из этого файла были скопированы записи, соотвествующие только misc RNA. Этот делалось с помощью следующих команд: infoseq NC_000964.frn |grep "misc_RNA" > flags
Также были скачаны файлы с геномом Bacillus_subtilis_spizizenii_TU_B_10_uid73967 в форматах *.gbk и *.fna . Затем был проведёт standalone megablast, чтобы найти гомологи этих misc RNA в геноме Bacillus_subtilis_spizizenii_TU_B_10_uid73967, команда для этого приведена дальше: makeblastdb -in NC_016047.fna -dbtype nucl
Из полученного файла, содержащего информацию о выравнивании была составлена эта таблица. Для следующего задания в качестве базы данных использвался геном Bacillus_cereus_NC7401_uid82815. Для него было проведено три различных blast: megablast, стандартный blastn и blastn с параметрами (-word_size 4, -penalty -1, -reward 1). По этим ссыкам можно скачать результат работы этих программ. Для всех misc_RNA была сделана таблица, в которой показано, сколько при каждом из этих агоритмов для них нашлось гомологов с e-value < 0.001 . Список команд, который использовался для проведения Blast приведёт ниже makeblastdb -in NC_016771.fna -dbtype nucl
Для выполнения следующего задания был скачан файл с последовательностями всех предсказанных белков Bacillus_subtilis_spizizenii_TU_B_10_uid73967. С помощью следующих команд был проведён blastx и получен выходной файл. makeblastdb -in NC_016047.faa -dbtype prot
Гомологи нашлись для 1, 25, 41, 46, 53, 57, 58, 61, 62 misc_RNA. ПРичём Два белка были не гипотетическими - это 1 - серил-тРНК-синтетаза (seryl-tRNA synthetase) и 46 - аспартокиназа (aspartokinase). Для проверки зависимости времени работы blastn от длины слова (-word_size) для длины слова от 4 до 16 была выполенна следующая команда, а результаты можно увидеть в таблице 1. time blastn -task blastn -query misc_RNA.fasta -db NC_016771.fna -out test.blstn -word_size XX #XX - числот от 4 до 16
Заметно, что с возрастанием длины слова время работы уменьшается, причём сильнее всего идёт уменьшение при увеличении очень маленьких длин слова. Я думаю, что эт связано с тем, что во-первых ужесточяются рамки поиска, а во-вторых просто проходит меньше времени на веребор всех возможных вариантов размещения слова на последовательности. Так как для большей блины слова этих вариантов меньше. |
© Демкив Андрей 2013 | Дата последнего изменения: 29.05.2015 |