|  | Локальный BLAST
             
              Для начала надо было скачать файл
              со всеми аннотированными РНК штамма Bacillus_subtilis_168_uid57675 с помощью  FTP-сервера NCBI. Затем нужно было оставить
              только записи всех misc_RNA. Для этого я использовала следующие команды:
              
                infoseq rna -only -usa -description | grep 'misc_RNA' >misc_rna
              Затем я ручками удалила из полученного файла описания и остался только
              список адресов. Затем собственно и получила искомый
              fasta-файл: 
                seqret @misc_rna misc_rna_fasta
               
             
              Далее надо было получить файлы c расширением .gbk и 
              .fna для штамма
              Bacillus_subtilis_spizizenii_TU_B_10_uid73967, чтобы с помощью программы megablast искать гомологов РНК первого
              штамма во втором. Для этого нужно сначала загрузить базу данных из генома второго штамма:
              
                makeblastdb -in NC_016047.fna -dbtype nucl
              Создалось три файла с расширениями .nhr, .nin и .nsq; название базы: 
              "NC_016047.fna" (понадобится для дальнейших запросов с флажком -db).
              Теперь с этой базой можно работать дальше. Нужна таблица с искомыми гомологами: 
                blastn -task megablast -query misc_rna_fasta -db NC_016047.fna -outfmt 7 -num_alignments 1
                -out infoal_table 
              Из полученного файла для начала я убрала строки описания 
              следующей командой: 
                grep '|' infoal_table > infoal_table2
              А затем удалила ненужные столбцы и поправила нужные. Получилась вот такая
              таблица. 
 
             
              Затем для следующего задания я скачала файлы с расширением .gbk и 
              .fna для штамма
              Bacillus_cereus_F837_76_uid83611, чтобы с помощью программ megablast и blastn искать гомологов misc_RNA штамма
              Bacillus_subtilis_168_uid57675 (получены в самом начале) в новополученном штамме. Для этого опять сначала надо скачать базу для
              нового штамма:
              
                makeblastdb -in NC_016779.fna -dbtype nucl
              Megablast для поиска гомологов: 
                blastn -task megablast -query misc_rna_fasta -db NC_016779.fna -outfmt 7 -evalue 0.001
                -out result_mbl 
              Получен какой-то результат. Как можно заметить,
              использование megablast в данном случае не очень уместно, так как штаммы дальше 
              друг от друга, чем в первом задании, поэтому совсем почти совпавших аналогов мало. Переходим к blastn с параметрами по умолчанию: 
                blastn -task blastn -query misc_rna_fasta -db NC_016779.fna -outfmt 7 -evalue 0.001
                -out result_bln 
              Результат на этот раз получился разнообразным: местами гомологи
              не найдены, а местами сразу много вариантов. Blastn с измененными параметрами должен выдать еще больше находок, проверим: 
                blastn -task blastn -query misc_rna_fasta -db NC_016779.fna -outfmt 7 -evalue 0.001
                -reward 1 -penalty -1 -word_size 4 -out result_bln2 
              Действительно, по результату видно,
              что гомологов найдено еще больше.
              (Отдельно отмечу, что и времени было потрачено на обработку запроса существенно больше.) В качестве итогового результата таблица. Она подтверждает
              предыдущие замечания, однако в двух местах blastn с измененными параметрами выдал
              чуть меньше гомологов, чем обычный blastn
              (почему?).
 
 
             
              Для третьего задания надо было скачать последовательности предсказанных белков штамма 
              Bacillus_subtilis_spizizenii_TU_B_10_uid73967 (файл с
              расширением .faa). Как всегда начинаем с составления базы:
              
                makeblastdb -in NC_016047.faa -dbtype prot
              Далее надо было подобрать значение порога e-value. Порог я выбрала 0.001, так как выше плохо, потому что гомологичность будет под
              вопросом, а ниже совсем ничего не найдется. Строка запроса: 
                blastx -query misc_rna_fasta -db NC_016047.faa -evalue 0.001 -outfmt 7 -out blastx1
              Как видно по выходному файлу гомологов найдено не очень много,
              всего 9 (для misc_RNA 1, 25, 41, 46, 53, 57, 58, 61, 62). Заметим, что 1-й и 46-й соответствуют "seryl-tRNA synthetase" и 
              "aspartokinase", что говорит о том, что эти РНК, вероятно, были аннотированы неправильно. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 |