Главная
Семестр 1
Семестр 2
Семестр 3
Семестр 4
О себе
Ссылки

Локальный BLAST

Для начала надо было скачать файл со всеми аннотированными РНК штамма Bacillus_subtilis_168_uid57675 с помощью FTP-сервера NCBI. Затем нужно было оставить только записи всех misc_RNA. Для этого я использовала следующие команды:
infoseq rna -only -usa -description | grep 'misc_RNA' >misc_rna
Затем я ручками удалила из полученного файла описания и остался только список адресов. Затем собственно и получила искомый fasta-файл:
seqret @misc_rna misc_rna_fasta

Далее надо было получить файлы c расширением .gbk и .fna для штамма Bacillus_subtilis_spizizenii_TU_B_10_uid73967, чтобы с помощью программы megablast искать гомологов РНК первого штамма во втором. Для этого нужно сначала загрузить базу данных из генома второго штамма:
makeblastdb -in NC_016047.fna -dbtype nucl
Создалось три файла с расширениями .nhr, .nin и .nsq; название базы: "NC_016047.fna" (понадобится для дальнейших запросов с флажком -db). Теперь с этой базой можно работать дальше. Нужна таблица с искомыми гомологами:
blastn -task megablast -query misc_rna_fasta -db NC_016047.fna -outfmt 7 -num_alignments 1 -out infoal_table
Из полученного файла для начала я убрала строки описания следующей командой:
grep '|' infoal_table > infoal_table2
А затем удалила ненужные столбцы и поправила нужные. Получилась вот такая таблица.


Затем для следующего задания я скачала файлы с расширением .gbk и .fna для штамма Bacillus_cereus_F837_76_uid83611, чтобы с помощью программ megablast и blastn искать гомологов misc_RNA штамма Bacillus_subtilis_168_uid57675 (получены в самом начале) в новополученном штамме. Для этого опять сначала надо скачать базу для нового штамма:
makeblastdb -in NC_016779.fna -dbtype nucl
Megablast для поиска гомологов:
blastn -task megablast -query misc_rna_fasta -db NC_016779.fna -outfmt 7 -evalue 0.001 -out result_mbl
Получен какой-то результат. Как можно заметить, использование megablast в данном случае не очень уместно, так как штаммы дальше друг от друга, чем в первом задании, поэтому совсем почти совпавших аналогов мало. Переходим к blastn с параметрами по умолчанию:
blastn -task blastn -query misc_rna_fasta -db NC_016779.fna -outfmt 7 -evalue 0.001 -out result_bln
Результат на этот раз получился разнообразным: местами гомологи не найдены, а местами сразу много вариантов. Blastn с измененными параметрами должен выдать еще больше находок, проверим:
blastn -task blastn -query misc_rna_fasta -db NC_016779.fna -outfmt 7 -evalue 0.001 -reward 1 -penalty -1 -word_size 4 -out result_bln2
Действительно, по результату видно, что гомологов найдено еще больше. (Отдельно отмечу, что и времени было потрачено на обработку запроса существенно больше.)
В качестве итогового результата таблица. Она подтверждает предыдущие замечания, однако в двух местах blastn с измененными параметрами выдал чуть меньше гомологов, чем обычный blastn (почему?).


Для третьего задания надо было скачать последовательности предсказанных белков штамма Bacillus_subtilis_spizizenii_TU_B_10_uid73967 (файл с расширением .faa). Как всегда начинаем с составления базы:
makeblastdb -in NC_016047.faa -dbtype prot
Далее надо было подобрать значение порога e-value. Порог я выбрала 0.001, так как выше плохо, потому что гомологичность будет под вопросом, а ниже совсем ничего не найдется. Строка запроса:
blastx -query misc_rna_fasta -db NC_016047.faa -evalue 0.001 -outfmt 7 -out blastx1
Как видно по выходному файлу гомологов найдено не очень много, всего 9 (для misc_RNA 1, 25, 41, 46, 53, 57, 58, 61, 62). Заметим, что 1-й и 46-й соответствуют "seryl-tRNA synthetase" и "aspartokinase", что говорит о том, что эти РНК, вероятно, были аннотированы неправильно.