|
|||||
|
|||||
Локальный BLAST Программа BLAST, направленная на поиск сходных белковых или нуклеотидных последовательностей реализована в двух формах: онлайн программа и локальная программа. В предыдущей работе описывалась работа с онлайн программой BLAST, сейчас будет рассмотрена локальная программа BLAST (или Standalone BLAST). 1. Поиск некодирующих РНК (misc_RNA), аннотированных в одном штамме, в геноме другого штаммаДля начала с FTP-сервера NCBI был получен файл с расширением .frn, в котором лежат все аннотированные РНК штамма Bacillus subtilis 168 uid57675. Из этого файла были извлечены последовательности только misc_RNA (misc_rna.fasta) с помощью следующих команд:
infoseq NC_000964.frn | grep 'misc_RNA' | awk '{ print $1 }' > usa.txt Аналогично было скачено два файла с расширением .gbk и .fna с геномом другого штамма бактерии, а именно Bacillus subtilis spizizenii TU B 10 uid73967. Далее была создана нуклеотидная база данных локального BLAST в виде трёх файлов. Для этого использовалась команда:
makeblastdb -in NC_016047.fna -dbtype nucl И на основе этих файлов с помощью алгоритма megablast были найдены гомологи некодирующих РНК первого штамма в геноме второго. Команда:
blastn -task megablast -query misc_rna.fasta -db NC_016047.fna -out blast.out -outfmt 7 -num_alignments 1 На основе полученного файла была составлена таблица, в которой для каждой misc_RNA указаны её номер, цепь (прямая или обратная относительно записи RefSeq) и координаты начала и конца лучшего найденного гомолога (скачать таблицу). 2. Поиск гомологов misc_RNA Bacillus subtilis в геноме другой бактерииДалее была проведена аналогичная работа по поиску некодирующих РНК, но уже в геноме у бактерии другого рода, а именно в геноме бактерии Bacillus cereus 03BB102 uid59299. Для выбранной бактерии на FTP-сервере NCBI лежит два файла с расширением .fna, один из которых содержит последовательность плазмиды, а другой, который и был впоследствии взят (см. здесь), полный геном бактерии. Далее была создана нуклеотидная база и на ее основе призведен поиск гомологов тремя различными алгоритмами: megablast, blastn с параметрами по умолчанию и blastn с измененными параметрами (длина слова = 4, награда за совпадение = 1, штраф за несовпадение = –1). Использовались следующие команды:
blastn -task megablast -query misc_rna.fasta -db NC_012472.fna -out blast_2.1.out -outfmt 7 -num_alignments 1 -evalue 0.001 В результате было получено три файла (1 , 2 , 3) и на их основе составлена таблица, в которой для каждой micsRNA указано количество гомологов c e-value < 0.001, найденных в каждом из трех вариантов поиcка (скачать таблицу). 3. Поиск неправильно аннотированных генов программой blastxДля этой задачи снова рассматривалась бактерия Bacillus subtilis spizizenii TU B 10 uid73967, а именно последовательность предсказанных белков. По данному файлу была составлена белковая база аналогичной командой, используемой ранее. С помощью программы blastx, которая принимает файл с нуклеотидными последовательностями, но производит поиск по белковой базе данных, был произведён поиск гомологов некодирующих РНК Bacillus subtilis 168 uid57675 среди предсказанных белков Bacillus subtilis spizizenii TU B 10 uid73967. Был выбран стандартный порог Е-value (меньше 0.001). Использовалась команда:
blastx -query misc_rna.fasta -db NC_016047.faa -out blastx.out -outfmt 7 -num_alignments 1 -evalue 0.001 Получили файл с находками — blastx.out. Гомологи были найдены для девяти misc_RNA: 1, 25, 41, 46, 53, 57, 58, 61, 62, из которых только 2 белка проаннотированы: 1 — серил-тРНК синтаза и 46 — аспартокиназа, все остальные белки являются гипотетическими. |
|||||
© Alyona Koryagina aakor@fbb.msu.ru
Дата последнего изменения: 17.12.2014 |