Учебный сайт Светланы Яровенко
» Семестры » Третий семестр » Standalone BLAST

Standalone BLAST

С FTP-сервера NCBI был загружен файл NC_000964.frn со всеми аннотированными последовательностями РНК штамма Bacillus_subtilis_168_uid57675. В этом файле встречаются различные типы РНК: рибосомальная РНК, транспортная РНК, некодирующая РНК (misc_RNA). Из него был получен файл misc.txt, содержащий адреса всех misc_RNA, с помощью следующей команды:

 infoseq NC_000964.frn|grep -e 'misc_RNA'|colrm 39|sed 's/ -//g' > misc.txt

Сначала мы запускаем команду infoseq для файла NC_000964.frn, чтобы получить лист-файл. Далее с помощью команды grep мы отбираем все строчки, содержащие misc_RNA. Командой colrm 39 вырезается 39 столбцов, а команда s/ -//g заменяет оставшиеся после вырезания "-" на пустоту.

Затем с помощью команды seqret @misc.txt RNA.fasta был получен файл RNA.fasta, содержащий последовательности всех некодирующих РНК данного штамма.


Также были скачаны два файла с геномом штамма Bacillus_subtilis_spizizenii_TU_B_10_uid73967: NC_016047.gbk и NC_016047.fna. С помощью команды makeblastdb -in NC_016047.fna -dbtype nucl была создана нуклеотидная база данных локального BLAST: NC_016047.fna.nhr, NC_016047.fna.nin и NC_016047.fna.nsq.

С помощью программы blatn по алгоритму megablast был произведён поиск misc_RNA из предыдущего штамма в Bacillus_subtilis_spizizenii_TU_B_10_uid73967.

Была введена следующая команда:
blastn -task megablast -query RNA.fasta -db NC_016047.fna -outfmt 7 -num_alignments 1 -out mega_res.txt


В итоге был получен файл mega_res.txt, на основе которого в Excel была составлена таблица (лист 1) (для каждой misc_RNA указан её номер, цепь (прямая или обратная относительно записи RefSeq) и координаты начала и конца лучшего найденного гомолога).


Аналогичным образом был скачан геном штамма Bacillus_cereus_NC7401_uid82815. Мы будем использовать его как базу данных для BLAST (makeblastdb -in NC_016771.fna -dbtype nucl).

Во всех случаях был установлен порог по e-value (< 0,001). Полученные файлы: mega2.txt, blastn1.txt, blastn2.txt. В таблице (лист 2) для каждой misc_RNA указано количество гомологов c e-value < 0.001.


Для дальнейшей работы был загружен файл NC_016047.faa с последовательностями предсказанных белков штамма Bacillus_subtilis_spizizenii_TU_B_10_uid73967. По нему была создана база данных для BLAST (makeblastdb -in NC_016047.faa -dbtype prot).

Программой blastx был произведён поиск гомологов misc_RNA. Отбирались гомологи с e-value < 0.001. Использованная команда: blastx -query RNA.fasta -db NC_016047.faa -out blastx.txt -outfmt 7 -num_alignments 1 -evalue 0.001. Полученный файл: blastx.txt.

Всего нашлось 9 гомологов, которые соответствуют misc_RNA под номерами 1, 25, 41, 46, 53, 57, 58, 61, 62. Гомолог 1 некодирующей РНК — серил тРНК-синтетаза, 46 — аспартокиназа. Для всех остальных — это какие-то "предполагаемые" белки.



Наверх