Учебный сайт Алены Корягиной

Локальный BLAST

Программа BLAST, направленная на поиск сходных белковых или нуклеотидных последовательностей реализована в двух формах: онлайн программа и локальная программа. В предыдущей работе описывалась работа с онлайн программой BLAST, сейчас будет рассмотрена локальная программа BLAST (или Standalone BLAST).

1. Поиск некодирующих РНК (misc_RNA), аннотированных в одном штамме, в геноме другого штамма

Для начала с FTP-сервера NCBI был получен файл с расширением .frn, в котором лежат все аннотированные РНК штамма Bacillus subtilis 168 uid57675. Из этого файла были извлечены последовательности только misc_RNA (misc_rna.fasta) с помощью следующих команд:

infoseq NC_000964.frn | grep 'misc_RNA' | awk '{ print $1 }' > usa.txt
seqret @usa.txt misc_rna.fasta

Аналогично было скачено два файла с расширением .gbk и .fna с геномом другого штамма бактерии, а именно Bacillus subtilis spizizenii TU B 10 uid73967. Далее была создана нуклеотидная база данных локального BLAST в виде трёх файлов. Для этого использовалась команда:

makeblastdb -in NC_016047.fna -dbtype nucl

И на основе этих файлов с помощью алгоритма megablast были найдены гомологи некодирующих РНК первого штамма в геноме второго. Команда:

blastn -task megablast -query misc_rna.fasta -db NC_016047.fna -out blast.out -outfmt 7 -num_alignments 1

На основе полученного файла была составлена таблица, в которой для каждой misc_RNA указаны её номер, цепь (прямая или обратная относительно записи RefSeq) и координаты начала и конца лучшего найденного гомолога (скачать таблицу).

2. Поиск гомологов misc_RNA Bacillus subtilis в геноме другой бактерии

Далее была проведена аналогичная работа по поиску некодирующих РНК, но уже в геноме у бактерии другого рода, а именно в геноме бактерии Bacillus cereus 03BB102 uid59299.

Для выбранной бактерии на FTP-сервере NCBI лежит два файла с расширением .fna, один из которых содержит последовательность плазмиды, а другой, который и был впоследствии взят (см. здесь), полный геном бактерии. Далее была создана нуклеотидная база и на ее основе призведен поиск гомологов тремя различными алгоритмами: megablast, blastn с параметрами по умолчанию и blastn с измененными параметрами (длина слова = 4, награда за совпадение = 1, штраф за несовпадение = –1). Использовались следующие команды:

blastn -task megablast -query misc_rna.fasta -db NC_012472.fna -out blast_2.1.out -outfmt 7 -num_alignments 1 -evalue 0.001
blastn -task blastn -query misc_rna.fasta -db NC_012472.fna -out blastn_2.2.out -outfmt 7 -num_alignments 1 -evalue 0.001
blastn -task blastn -query misc_rna.fasta -db NC_012472.fna -out blastn_2.3.out -outfmt 7 -num_alignments 1 -evalue 0.001 -word_size 4 -penalty -1 -reward 1

В результате было получено три файла (1 , 2 , 3) и на их основе составлена таблица, в которой для каждой micsRNA указано количество гомологов c e-value < 0.001, найденных в каждом из трех вариантов поиcка (скачать таблицу).

3. Поиск неправильно аннотированных генов программой blastx

Для этой задачи снова рассматривалась бактерия Bacillus subtilis spizizenii TU B 10 uid73967, а именно последовательность предсказанных белков. По данному файлу была составлена белковая база аналогичной командой, используемой ранее.

С помощью программы blastx, которая принимает файл с нуклеотидными последовательностями, но производит поиск по белковой базе данных, был произведён поиск гомологов некодирующих РНК Bacillus subtilis 168 uid57675 среди предсказанных белков Bacillus subtilis spizizenii TU B 10 uid73967. Был выбран стандартный порог Е-value (меньше 0.001). Использовалась команда:

blastx -query misc_rna.fasta -db NC_016047.faa -out blastx.out -outfmt 7 -num_alignments 1 -evalue 0.001

Получили файл с находками — blastx.out. Гомологи были найдены для девяти misc_RNA: 1, 25, 41, 46, 53, 57, 58, 61, 62, из которых только 2 белка проаннотированы: 1 — серил-тРНК синтаза и 46 — аспартокиназа, все остальные белки являются гипотетическими.

© Alyona Koryagina aakor@fbb.msu.ru

Дата последнего изменения: 17.12.2014