Локальный

BLAST

СеместрыТретий семестр • Локальный BLAST

Поиск некодирующих РНК одного штамма в геноме другого

В этом задании рассматривались некодирующие РНК (misc RNA) штамма Bacillus subtilis 168 uid57675. Их гомологи необходимо было найти в штамме Bacillus subtilis spizizenii TU B 10 uid73967. С FTP-сервера NCBI я скачал все необходимые файлы. Для получения файла с последовательностями только misc_RNA из файла rna.fa с последовательностями всех РНК я использовал команду

infoseq rna.fa | grep 'misc_RNA' > inf.txt

для получения файла-списка. В полученном файле я удалил все столбцы, кроме первого, и использовал команду

seqret @inf.txt rnout.fasta

для получения последовательностей всех записей в этом файле-списке. Затем по геному второго штамма я создал базу данных blast:

makeblastdb -in NC_016047.fna -dbtype nucl

и провел поиск в megablast:

blastn -task megablast -query rnout.fasta -db NC_016047.fna -out rnmega_1.txt -outfmt 7 -num_alignments 1

Из полученного файла я выбрал нужные мне строчки командой grep и оформил таблицу Excel(первый лист), в которой для каждой misc_RNA указаны её номер, цепь (прямая или обратная относительно записи RefSeq) и координаты начала и конца лучшего найденного гомолога.

Поиск гомологов РНК Bacillus subtilis в геноме другой бактерии

Я скачал геном бактерии Bacillus cereus FRI-35 и провел поиск гомологов misc_RNA с помощью megablast, blastn с параметрами по умолчанию и blastn с длиной слова 4, штрафом за несовпадение -1 и наградой за совпадение 1. Команды:

makeblastdb -in NC_018491.fna -dbtype nucl
blastn -task megablast -query rnout.fasta -db NC_018491.fna -out rnmega_2.txt -outfmt 6 
blastn -task blastn -query rnout.fasta -db NC_018491.fna -out rnblastn_2.txt -evalue 0.001 -outfmt 6 
blastn -task blastn -query rnout.fasta -word_size 4 -penalty -1 -reward 1 -db NC_018491.fna -out rnblastnm.txt -evalue 0.001 -outfmt 6

Результат работы BLAST я оформил в таблицу Excel (второй лист), в которой для каждой micsRNA указано количество гомологов c e-value < 0.001, найденных в каждом из трех вариантов поиcка.

Поиск неправильно аннотированных генов программой blastx

Я скачал последовательности предсказанных белков штамма Bacillus subtilis spizizenii TU B 10 и провел поиск гомологов misc_RNA:

makeblastdb -in NC_016047.faa -dbtype prot
blastx -query rnout.fasta -db NC_016057.faa -out pr9_3.txt -outfmt 6 -evalue 0.001

Гомологи нашлись для транскриптов misc_RNA под номерами 1, 25, 41, 46, 53, 57, 58, 61, 62, причем для некоторых гомологолом является один и тот же белок (41 и 46, 57 и 58, 61 и 62). E-value в таких случаях отличается меньше, чем на порядок.

Используя grep я получил аннотации белков, гомологичных транскриптам данных misc_RNA:

>gi|350264114|ref|YP_004875421.1| seryl-tRNA synthetase [Bacillus subtilis subsp. spizizenii TU-B-10]
>gi|350265855|ref|YP_004877162.1| hypothetical protein GYO_1891 [Bacillus subtilis subsp. spizizenii TU-B-10]
>gi|350266923|ref|YP_004878230.1| hypothetical protein GYO_2994 [Bacillus subtilis subsp. spizizenii TU-B-10]
>gi|350267023|ref|YP_004878330.1| aspartokinase [Bacillus subtilis subsp. spizizenii TU-B-10]
>gi|350267478|ref|YP_004878785.1| hypothetical protein GYO_3577 [Bacillus subtilis subsp. spizizenii TU-B-10]
>gi|350268036|ref|YP_004879343.1| hypothetical protein GYO_4142 [Bacillus subtilis subsp. spizizenii TU-B-10]
>gi|350268183|ref|YP_004879490.1| hypothetical protein GYO_4299 [Bacillus subtilis subsp. spizizenii TU-B-10]

Для misc_RNA №1 и №41,46 гомологи не являются просто гипотетическими белками. Для misc_RNA №1 это серил-тРНК синтетаза, для пары №41,46 - аспартаткиназа.