Локальный BLAST
Заданиe 1. Поиск некодирующих РНК, аннотированных в одном штамме, в геноме другого штамма
Для начала с FRP-сервера NCBI был скачан fasta-файл со всеми последовательностями РНК организма Bacillus subtilis штамма 168 uid57675. В этом файле есть тРНК, рРНК и некодирующая РНК (misc_RNA). Для того, чтобы выделить из файла только последний тип, использовалась такой bash-конвейер:
infoseq bacillus1_rna.fasta | grep 'misc_RNA' | awk '{ print $1 }' > misc_ids.txt
Команда awk выделила из таблицы, данной на вход из infoseq, только первый столбец с универсальными идентификаторами РНК. Затем с помощью команды seqret @misc_ids.txt misc.fasta был получен файл с некодирущими РНК, соответствующими этим идентификаторам.Кроме того с FTP-сервера NCBI были скачаны два файла c геномом организма Bacillus subtilis spizizenii штамма TU B 10 uid73967: NC_016047.fna и NC_016047.fna. Этот геном — "банк", в котором нам нужно найти гомологичные последовательности тем самым некодирующим РНК. Для начала нужно подготовить банк для работы в BLAST такой командой: makeblastdb -in NC_016047.fna -dbtype nucl. Теперь запустим алгоритм blastn:
blastn -task megablast -query misс.fasta -db NC_016047.fna -out blast.out -outfmt 7 -num_alignments 1
Получен файл blast.out с информацией о выравниваниях. На основе него сделана таблица с координатами гомологов каждой misc_RNA и ориентацией цепи этих участков в геноме.Заданиe 2. Поиск гомологов РНК Bacillus subtilis в геноме другой бактерии
Сначала с FRP-сервера NCBI был скачан геном Bacillus cereus штамма 03BB102 uid59299: NC_012472.fna. Так же, как и в предыдущем задании, файл был подготовлен для работы в BLAST. Поиск гомологов misc_RNA из первого задания с помощью BLAST сделан три раза с разными параметрами, как и в предыдущем практикуме:
- megablast: blastn -task megablast -query misc.fasta –db NC_012472.fna -out megablast.out -outfmt 7 -num_alignments 1 -word_size 4 -reward 1 -penalty -1 → выходной файл
- blastn (параметры по умолчанию): blastn -task blastn -query misc.fasta -db NC_012472.fna -out blastn1.out -outfmt 7 -num_alignments 1 -evalue 0.001 → выходной файл
- blastn (длина инциирующего участка = 4, награда за совпадение = 1, штраф за несовпадение = –1): blastn -task blastn -query misc.fasta -db NC_012472.fna -out blastn2.out -outfmt 7 -num_alignments 1 -word_size 4 -reward 1 -penalty 1 -evalue 0.001 → выходной файл
В таблице отражено количество найденных участков по каждому алгоритму. Результаты согласуются с результатами предыдущего практикума.
Заданиe 3. Поиск неправильно аннотированных генов программой blastx
В этом задании опять рассматриваем геном бактерии Bacillus subtilis штамма 168 uid57675, а точнее последовательности предсказанных белков.
Программа blastx транслирует нуклеотидную последовательность и ищет гомологи в белковой базе данных. С помощью нее можно найти гомологов некодирующей misc_RNA из первого задания среди предсказанных белков, чтобы достигнуть цели задания.
Две использованные команды:
makeblastdb -in prpr.fasta -dbtype prot
blastx -query misc.fasta -db prpr.fasta -out blastx.out -outfmt 7 -evalue 0.001
Выравнялось 9 некодирующих РНК (таблица 1). Программой blastx эти белки признаны гомологичными некодирующим РНК. Причем семь из них — это гипотетические белки, но для двух точно определена функция. Это позволяет сказать, что белки YP_004875421.1 и YP_004878330.1 аннотированы неправильно.
Таблица 1. Результат алгоритма blastx для misc_RNA и предсказанных белков. Названия белков выделены из файла с помощью grep.
№ (misc_RNA) | subject id | evalue | protein |
---|---|---|---|
1 | gi|350264114|ref|YP_004875421.1| | 9,00E-15 | seryl-tRNA synthetase |
25 | gi|350265855|ref|YP_004877162.1| | 7,00E-06 | hypothetical protein GYO_1891 |
41 | gi|350266923|ref|YP_004878230.1| | 6,00E-32 | hypothetical protein GYO_2994 |
46 | gi|350267023|ref|YP_004878330.1| | 4,00E-21 | aspartokinase |
53 | gi|350267478|ref|YP_004878785.1| | 2,00E-06 | hypothetical protein GYO_357 |
57 | gi|350268036|ref|YP_004879343.1| | 2,00E-07 | hypothetical protein GYO_4142 |
58 | gi|350268036|ref|YP_004879343.1| | 5,00E-07 | hypothetical protein GYO_4142 |
61 | gi|350268183|ref|YP_004879490.1| | 4,00E-18 | hypothetical protein GYO_4299 |
62 | gi|350268183|ref|YP_004879490.1| | 2,00E-05 | hypothetical protein GYO_4299 |