standalone BLAST
Главная

Поиск некодирующих РНК (misc_RNA), аннотированных в одном штамме, в геноме другого штамма

С FTP-сервера NCBI был скачан файл с последовательностями всех РНК организма Bacillus_subtilis_168_uid57675 в fasta формате.

Командой:

infoseq NC_000964.frn | grep 'misc_RNA' | awk '{ print $1 }' > usa.txt

был получен список универсальных адресов (USA) всех некодирующих РНК (miscRNA)

Для получения последовательностей miscRNA была использована команда:

seqret @USA.txt misc.fasta

Также с FTP-сервера NCBI были скачены файлы NC_016047.fna и NC_016047.gbk , принадлежащие организму Bacillus_subtilis_spizizenii_TU_B_10_uid73967 .

Командой:

makeblastdb -in NC_016047.fna -dbtype nucl

была создана нуклеотидная база данных, состоящая из трёх файлов: NC_016047.fna.nhr, NC_016047.fna.nin и NC_016047.fna.nsq.

Командой:

blastn -task megablast -query misс.fasta -db NC_016047.fna -out blast.out -outfmt 7 -num_alignments 1

был получен файл с информацией о выравниваниях. На основе этой информации была получена таблица excel, содержащая информацию о misc_RNA Bacillus_subtilis_168_uid57675. В таблице также есть данные о кодирующей цепи ДНК (прямая или обратная) и лучшем гомологе, если их больше одного.

Поиск гомологов РНК Bacillus subtilis в геноме другой бактерии

Был проведен поиск гомологов misc_RNA из первого задания в геноме Bacillus_cereus_Q1_uid58529. С этой целью были применены разные алгоритмы программы blastn: megablast, blastn с параметрами по умолчанию и blastn с параметрами: длина слова = 4, награда за совпадение = 1, штрав за несовпадение = -1.

makeblastdb -in NC_011969.fna -dbtype nucl
blastn -task megablast -query misc_rna.fasta -db NC_011969.fna -out blast2mega.txt -outfmt 7 -evalue 0.001
blastn -task blastn -query misc_rna.fasta -db NC_011969.fna -out blast2n.txt -outfmt 7 -evalue 0.001
blastn -task blastn -query misc_rna.fasta -db NC_011969.fna -out blast2n2.txt -outfmt 7 -evalue 0.001 -word_size 4 -penalty -1 -reward 1

В таблице excel представлено количество гомологов с E-value < 0.001

Число находок почти всегда увеличивается в ряду megablast > blastn с параметрами по умолчанию > blastn с установленными параметрами (менее чувствительными).

Поиск неправильно аннотированных генов программой blastx

Был скачан файл с последовательностями предсказанных белков штамма Bacillus_subtilis_spizizenii_TU_B_10_uid73967 Из него была получена локальная база данных белков. В ней программой blastx был проведен поиск гомологов misc_RNA из предыдущих заданий.

makeblastdb -in NC_016047.faa -dbtype prot
blastx -query misc_rna.fasta -db NC_016047.faa -out blastx.txt -outfmt 7 -evalue 0.001

Нашлись гомологи для: 1, 25, 41, 46, 53, 57, 58, 61, 62. В таблице excel приведены идентификаторы и E-value находок. Для misc_RNA под номерами 57 и 58, 61 и 62 были найдены одни и те же белки. В таблице эти пары выделены цветом. E-value у 61 и 62 отличается более чем на 13 порядков, а у 57 и 58 - всего в 2,5 раза. Для получения описаний всех найденных белков была использована команда0:

grep -E 'YP_004875421.1|YP_004877162.1|YP_004878230.1|YP_004878330.1|YP_004878785.1|YP_004879343.1|YP_004879490.1' 'NC_016047.faa' > descr.txt

Файл: descr.txt

Описание "гомолога" misc_RNA №1 (YP_004875421.1) - серил-тРНК-синтетаза, misc_RNA №46 (YP_004878330.1) - аспартаткиназа, для остальных это гипотетический белок. Видимо, белки YP_004875421.1 и YP_004878330.1 аннотированы неправильно.

Обо мне
Ссылки


Valid HTML 4.01 Transitional