Учебный сайт Ксении Березиной

Локальный BLAST

Заданиe 1. Поиск некодирующих РНК, аннотированных в одном штамме, в геноме другого штамма

Для начала с FRP-сервера NCBI был скачан fasta-файл со всеми последовательностями РНК организма Bacillus subtilis штамма 168 uid57675. В этом файле есть тРНК, рРНК и некодирующая РНК (misc_RNA). Для того, чтобы выделить из файла только последний тип, использовалась такой bash-конвейер:

infoseq bacillus1_rna.fasta | grep 'misc_RNA' | awk '{ print $1 }' > misc_ids.txt

Команда awk выделила из таблицы, данной на вход из infoseq, только первый столбец с универсальными идентификаторами РНК. Затем с помощью команды seqret @misc_ids.txt misc.fasta был получен файл с некодирущими РНК, соответствующими этим идентификаторам.

Кроме того с FTP-сервера NCBI были скачаны два файла c геномом организма Bacillus subtilis spizizenii штамма TU B 10 uid73967: NC_016047.fna и NC_016047.fna. Этот геном — "банк", в котором нам нужно найти гомологичные последовательности тем самым некодирующим РНК. Для начала нужно подготовить банк для работы в BLAST такой командой: makeblastdb -in NC_016047.fna -dbtype nucl. Теперь запустим алгоритм blastn:

blastn -task megablast -query misс.fasta -db NC_016047.fna -out blast.out -outfmt 7 -num_alignments 1

Получен файл blast.out с информацией о выравниваниях. На основе него сделана таблица с координатами гомологов каждой misc_RNA и ориентацией цепи этих участков в геноме.

Заданиe 2. Поиск гомологов РНК Bacillus subtilis в геноме другой бактерии

Сначала с FRP-сервера NCBI был скачан геном Bacillus cereus штамма 03BB102 uid59299: NC_012472.fna. Так же, как и в предыдущем задании, файл был подготовлен для работы в BLAST. Поиск гомологов misc_RNA из первого задания с помощью BLAST сделан три раза с разными параметрами, как и в предыдущем практикуме:

В таблице отражено количество найденных участков по каждому алгоритму. Результаты согласуются с результатами предыдущего практикума.

Заданиe 3. Поиск неправильно аннотированных генов программой blastx

В этом задании опять рассматриваем геном бактерии Bacillus subtilis штамма 168 uid57675, а точнее последовательности предсказанных белков.

Программа blastx транслирует нуклеотидную последовательность и ищет гомологи в белковой базе данных. С помощью нее можно найти гомологов некодирующей misc_RNA из первого задания среди предсказанных белков, чтобы достигнуть цели задания.

Две использованные команды:

makeblastdb -in prpr.fasta -dbtype prot

blastx -query misc.fasta -db prpr.fasta -out blastx.out -outfmt 7 -evalue 0.001

Выравнялось 9 некодирующих РНК (таблица 1). Программой blastx эти белки признаны гомологичными некодирующим РНК. Причем семь из них — это гипотетические белки, но для двух точно определена функция. Это позволяет сказать, что белки YP_004875421.1 и YP_004878330.1 аннотированы неправильно.

Таблица 1. Результат алгоритма blastx для misc_RNA и предсказанных белков. Названия белков выделены из файла с помощью grep.

№ (misc_RNA) subject id evalueprotein
1gi|350264114|ref|YP_004875421.1|9,00E-15seryl-tRNA synthetase
25gi|350265855|ref|YP_004877162.1|7,00E-06hypothetical protein GYO_1891
41gi|350266923|ref|YP_004878230.1|6,00E-32hypothetical protein GYO_2994
46gi|350267023|ref|YP_004878330.1|4,00E-21aspartokinase
53gi|350267478|ref|YP_004878785.1|2,00E-06hypothetical protein GYO_357
57gi|350268036|ref|YP_004879343.1|2,00E-07hypothetical protein GYO_4142
58gi|350268036|ref|YP_004879343.1|5,00E-07hypothetical protein GYO_4142
61gi|350268183|ref|YP_004879490.1|4,00E-18hypothetical protein GYO_4299
62gi|350268183|ref|YP_004879490.1|2,00E-05hypothetical protein GYO_4299

Назад к третьему семестру