|
Локальный BLAST
Для начала надо было скачать файл
со всеми аннотированными РНК штамма Bacillus_subtilis_168_uid57675 с помощью FTP-сервера NCBI. Затем нужно было оставить
только записи всех misc_RNA. Для этого я использовала следующие команды:
infoseq rna -only -usa -description | grep 'misc_RNA' >misc_rna
Затем я ручками удалила из полученного файла описания и остался только
список адресов. Затем собственно и получила искомый
fasta-файл:
seqret @misc_rna misc_rna_fasta
Далее надо было получить файлы c расширением .gbk и
.fna для штамма
Bacillus_subtilis_spizizenii_TU_B_10_uid73967, чтобы с помощью программы megablast искать гомологов РНК первого
штамма во втором. Для этого нужно сначала загрузить базу данных из генома второго штамма:
makeblastdb -in NC_016047.fna -dbtype nucl
Создалось три файла с расширениями .nhr, .nin и .nsq; название базы:
"NC_016047.fna" (понадобится для дальнейших запросов с флажком -db).
Теперь с этой базой можно работать дальше. Нужна таблица с искомыми гомологами:
blastn -task megablast -query misc_rna_fasta -db NC_016047.fna -outfmt 7 -num_alignments 1
-out infoal_table
Из полученного файла для начала я убрала строки описания
следующей командой:
grep '|' infoal_table > infoal_table2
А затем удалила ненужные столбцы и поправила нужные. Получилась вот такая
таблица.
Затем для следующего задания я скачала файлы с расширением .gbk и
.fna для штамма
Bacillus_cereus_F837_76_uid83611, чтобы с помощью программ megablast и blastn искать гомологов misc_RNA штамма
Bacillus_subtilis_168_uid57675 (получены в самом начале) в новополученном штамме. Для этого опять сначала надо скачать базу для
нового штамма:
makeblastdb -in NC_016779.fna -dbtype nucl
Megablast для поиска гомологов:
blastn -task megablast -query misc_rna_fasta -db NC_016779.fna -outfmt 7 -evalue 0.001
-out result_mbl
Получен какой-то результат. Как можно заметить,
использование megablast в данном случае не очень уместно, так как штаммы дальше
друг от друга, чем в первом задании, поэтому совсем почти совпавших аналогов мало. Переходим к blastn с параметрами по умолчанию:
blastn -task blastn -query misc_rna_fasta -db NC_016779.fna -outfmt 7 -evalue 0.001
-out result_bln
Результат на этот раз получился разнообразным: местами гомологи
не найдены, а местами сразу много вариантов. Blastn с измененными параметрами должен выдать еще больше находок, проверим:
blastn -task blastn -query misc_rna_fasta -db NC_016779.fna -outfmt 7 -evalue 0.001
-reward 1 -penalty -1 -word_size 4 -out result_bln2
Действительно, по результату видно,
что гомологов найдено еще больше.
(Отдельно отмечу, что и времени было потрачено на обработку запроса существенно больше.)
В качестве итогового результата таблица. Она подтверждает
предыдущие замечания, однако в двух местах blastn с измененными параметрами выдал
чуть меньше гомологов, чем обычный blastn
(почему?).
Для третьего задания надо было скачать последовательности предсказанных белков штамма
Bacillus_subtilis_spizizenii_TU_B_10_uid73967 (файл с
расширением .faa). Как всегда начинаем с составления базы:
makeblastdb -in NC_016047.faa -dbtype prot
Далее надо было подобрать значение порога e-value. Порог я выбрала 0.001, так как выше плохо, потому что гомологичность будет под
вопросом, а ниже совсем ничего не найдется. Строка запроса:
blastx -query misc_rna_fasta -db NC_016047.faa -evalue 0.001 -outfmt 7 -out blastx1
Как видно по выходному файлу гомологов найдено не очень много,
всего 9 (для misc_RNA 1, 25, 41, 46, 53, 57, 58, 61, 62). Заметим, что 1-й и 46-й соответствуют "seryl-tRNA synthetase" и
"aspartokinase", что говорит о том, что эти РНК, вероятно, были аннотированы неправильно.
|