Получил файл со всеми misc_RNA штамма Bacillus_subtilis_168_uid57675. Для этого зашёл на FTP-сервер NCBI и скачал нужный файл с расширением .frn, где находятся все аннотированные РНК этого штамма.
Посмотрел, какие РНК лежат в этом файле и как они называются. Чтобы получить файл с последовательностями только misc_RNA (без тРНК и рРНК), использовал команды infoseq (чтобы получить лист-файл), grep (чтобы отобрать из лист-файла требуемые строки) и seqret. Аналогично скачал два файла с геномом штамма Bacillus_subtilis_spizizenii_TU_B_10_uid73967: в формате GenBank (расширение gbk) и в формате fasta (расширение fna).
infoseq NC_000964.frn | grep 'misc_RNA' | awk '{ print $1 }' > 1.txt seqret @1.txt misc_rna.fasta
С помощью megablast нашел гомологи нужных РНК первого штамма в геноме второго.
blastn -task megablast -query misc_rna.fasta -db NC_016047.fna -out blast.out -outfmt 7 -num_alignments 1
На основе полученного файла была составлена таблица, в которой для каждой misc_RNA указаны её номер, цепь (прямая или обратная относительно записи RefSeq) и координаты начала и конца лучшего найденного гомолога (Таблица с данными).
Скачал геном Bacillus cereus. Провел поиск гомологов misc_RNA из первого задания в полученном геноме при помощи blastn с параметрами по умолчанию и blastn с параметрами: длина слова = 4, награда за совпадение = 1, штраф за несовпадение = –1 Результат свёл в — таблицу Excel, где для каждой micsRNA указано количество гомологов c e-value < 0.001, найденных в каждом из трех вариантов поиcка.
blastn -task megablast -query misc_rna.fasta -db 1.fna -out 1.out -outfmt 7 -num_alignments 1 -evalue 0.001 blastn -task blastn -query misc_rna.fasta -db 1.fna -out 2.out -outfmt 7 -num_alignments 1 -evalue 0.001 blastn -task blastn -query misc_rna.fasta -db 1.fna -out 3.out -outfmt 7 -num_alignments 1 -evalue 0.001 -word_size 4 -penalty -1 -reward 1
Программой blastx был произведён поиск гомологов некодирующих РНК Bacillus subtilis 168 uid57675 среди предсказанных белков Bacillus subtilis spizizenii TU B 10 uid73967. Было выбрано стандартное Е-value. Использовалась команда:
blastx -query misc_rna.fasta -db 1.faa -out blastx.out -outfmt 7 -num_alignments 1 -evalue 0.001Получен файл файл с находками. Найдены для 9 misc_RNA: 1, 25, 41, 46, 53, 57, 58, 61, 62; 2 белка проаннотированы: серил-тРНК синтаза и аспартокиназа; все остальные белки - гипотетические.
Дата последнего обновления: 16.02.2015