Поиск некодирующих РНК, аннотированных в одном штамме, в геноме другого штамма
Я скачала файл NC_000964.frn, содержащий все гены РНК Bacillus subtilis штамма 168_uid57675. Далее командой infoseq "NC_000964.frn" | grep "misc_RNA" > misc_RNA.fasta был получен файл с базовой информацией о misc_RNA. Возьмем из этого файла первый столбец - это список USA. Командой seqret @misc_RNA_USA.fasta misc_RNA_seq.fasta получим последовательности misc_RNA.
Скачаем файл NC_016047.fna с геномом штамма Bacillus_subtilis_spizizenii_TU_B_10_uid73967 и проведем относительно него мегабласт. Для этого сначала строится база данных командой makeblastdb -in NC_016047.fna -dbtype nucl. После этого выполняется команда blastn -task megablast -query misc_RNA_seq.fasta -db NC_016047.fna -outfmt 7 -num_alignments 1 -out alignment.fa. Эта команда проведет мегабласт для misc_RNA из Bacillus subtilis 168_uid57675 по базе Bacillus_subtilis_spizizenii_TU_B_10_uid73967, выдавая таблицу (outfmt 7) где для каждой misc_RNA приводится одно выравнивание. Полученный файл был обработан в Excel.
- Файл Excel: [x]
Поиск гомологов РНК Bacillus subtilis в геноме другой бактерии
Я скачала геном штамма Bacillus_cereus_Q1_uid58529. Для него проводился бласт misc_RNA тремя способами: megablast, blastn со стандартными параметрами, и blastn с длиной слова 4, штрафом за несовпадение -1 и бонусом за совпадение 1. Соответствующие команды:
blastn -task megablast -query misc_RNA_seq.fasta -db NC_011969.fna -outfmt 7 -num_alignments 1 -evalue 0.001 > alignment_21.txt blastn -task blastn -query misc_RNA_seq.fasta -db NC_011969.fna -outfmt 7 -num_alignments 1 -evalue 0.001 > alignment_22.txt blastn -task blastn -query misc_RNA_seq.fasta -db NC_011969.fna -word_size 4 -penalty -1 -reward 1 -outfmt 7 -num_alignments 1 -evalue 0.001 > alignment_23.txt
Из результатов была составлена таблица Excel, в которой приведены количество совпадений для каждой misc_RNA для megablast, blastn и blastn с измененными параметрами.
Видно, что для более отдаленных организмов (например, разных видов одного рода) мегабласт работает плохо, а blastn хорошо. Blastn с измененными параметрами нашел чуть больше гомологов, чем со стандартными, но не намного (в среднем 3.5 против 3.0).
Поиск неправильно аннотированных генов программой blastx
Т.к. гены miscRNA кодируют, понятно, нетранслируюмую РНК, то белки, найденные бластом по этим последовательностям, окажутся неправильно аннотированными. Проведем blastx (он переводит нуклеотидную последовательность в аминокислотную в 9 рамках считывания, а потом ищет гомологи по белковой базе данных) генов misc_RNA с протеомом штамма Bacillus_subtilis_spizizenii_TU_B_10_uid73967. В итоге для 9 последовательностей нашлись неверно проаннотированные гомологи. В большинстве случаев это гипотетические белки, но нашлась также последовательность серил-тРНК синтетазы, и последовательность, записанная как аспартокиназа, но видимо это все же не она, т.к. в записи лежит короткая последовательность из 37 аминокислот.
misc_RNA | id ложного гомолога | название ложного гомолога |
1 | YP_004875421.1 | серил-тРНК синтетаза |
25 | YP_004877162.1 | гипотетический белок |
41 | YP_004878230.1 | гипотетический белок |
46 | YP_004878330.1 | аспартокиназа |
53 | YP_004878785.1 | гипотетический белок |
57 | YP_004879343.1 | гипотетический белок |
58 | YP_004879343.1 | гипотетический белок |
61 | YP_004879490.1 | гипотетический белок |
62 | YP_004879490.1 | гипотетический белок |