Standalone BLAST

Поиск некодирующих РНК (misc_RNA), аннотированных в одном штамме, в геноме другого штамма

Для выполнения этого задания из списка всех РНК Bacillus subtilis 168 uid57675 был получен файл, содержащий последовательности со всеми misc_RNA. Из frn-файла, содержащего все аннотированные РНК этого штамма, был получен лист-файл командой infoseq. При помощи команды Grep был получен файл, содержащий только адреса последовательностей misc_RNA. С помощью комнады seqret был получен fasta-файл, содержащий последовательности misc-РНК. Для Bacillus_subtilis_spizizenii_TU_B_10_uid73967 были скачены файлы с его геномом: gbk- и fasta-файл. Используя локальный BLAST и геном второго штамма как базу данных, был произведен плиск гомологов данных РНК. С помощью комнады blastn (blastn -task megablast -query 1.fasta -db NC_016047.fna -out 1.out -outfmt 7 -num_alignments 1) был получен файл с информацией о всех выравниваниях. На основе этого файла была составлена таблица Excel, где для каждой misc_RNA указаны её номер, цепь (прямая или обратная относительно записи RefSeq) и координаты начала и конца лучшего найденного гомолога.

Поиск гомологов РНК Bacillus subtilis в геноме другой бактерии

В этом задании в качестве безы данных для blast использовался геном бактерии Bacillus cereus Q1, в качестве исходных данных тот же самый штамм Bacillus_subtilis. Поиск проводился с помощью трёх программ и были получены три выходных файла: megablast, стандартный blastn и blastn с параметрами (-word_size 4, -penalty -1, -reward 1). На основе этих результатов была составлена таблица Excel, в которой для каждого алгоритма поиска было указано количество найденных гомологов с e-value < 0.001.

Поиск неправильно аннотированных генов программой blastx

Задача заключалась в поиске гомологов misc_RNA из предыдущих заданий в скачанных белковых последовательностях с помощью программы blastx. В качестве базы данных использовался файл с последовательностями предсказанных белков штамма Bacillus subtilis spizizenii TU B 10 uid73967. Для осуществления поиска был определён e-value меньше 0,001 и составлена команда: blastx -query miscRNA.fasta -db NC_016047.faa -out blastx.out -evalue 0.001 -outfmt 7 -num_alignments 1. Как видно из выходного файла и таблицы, гомологи были найдены для РНК под номерами 1, 25, 41, 46, 53, 57, 58, 61, 62. 1-ый и 46-ой белки были реальными, а не гипотетическими (серил-тРНК синтаза - 1 и аспартокиназа - 46).

Зависимость времени работы blastn от длины затравки

Зависимость времени работы blastn от длины затравки проверяется командой time blastn -task blastn -query 1.fasta -db NC_011969.fna -out time.blastn -word_size x, где х меняется от 4 до 16. Результаты приведены в таблице 1.

Таблица 1. Зависимость времени поиска от длины слова
Длина слова Время (сек)
4 33.336
5 8.994
6 2.860
7 1.316
8 0.945
9 0.844
10 0.802
11 0.765
12 0.715
13 0.732
14 0.664
15 0.643
16 0.641

При увеличении длины слова уменьшается время поиска. Возможно, это связано с тем, что ужесточаются рамки поиска и, следовательно, меньше времени требуется на перебор исходной и сравниваемой последовательности.

© Маслова Валентина, 2014
Последнее изменение: 06.11.2014