Личный сайт
Просвирова Кирилла

StandAloneBLAST

Поиск некодирующих РНК (misc_RNA), аннотированных в одном штамме, в геноме другого штамма

Для начала необходимо было скачать файл со всеми miscRNA для штамма Bacillus subtilis 168 uid57675 с FTP-сервера NCBI. Был скачал следующий файл . Далее с помощью двух команд: infoseq miscRNA.txt | grep 'misc_RNA' | awk '{ print $1 }' > usa.txt и seqret @usa.txt misc_rna.fasta. Получен файл с miscRNA - файл .
Далее были скачаны геномы Bacillus_subtilis_spizizenii_TU_B_10_uid73967 в двух форматах: gbk и fasta. Была создана база командой makeblastdb -in NC_016047.fna -dbtype nucl и затем проведен megablast, вывод которого можно посмотреть в файле . Таблица приведен общая внизу страницы.

Поиск гомологов РНК Bacillus subtilis в геноме другой бактерии

Для выполнения задания была выбрана бактерия Bacillus_cereus_B4264_uid58757 . Из файла генома опять была сделана база с помощью команды makeblastdb -in NC_011725.fna -dbtype nucl и проведено три вида BLAST - megaBlast, BLASTN с параметарми по умолчанию и BLASTN с длиной слова = 4, наградой за совпадение = 1, штраф за несовпадение = -1. Соответствующие команды:
blastn -task megablast -query misc_rna.fasta -db NC_011725.fna -out megablastTask2.txt -outfmt 7
blastn -task blastn -query misc_rna.fasta -db NC_011725.fnat -out blastnTask2.txt -evalue 0.001 -outfmt 7
blastn -task blastn -query misc_rna.fasta -db NC_011725.fna -out blastnPTask2.txt -evalue 0.001 -word_size 4 -penalty -1 -reward 1 -outfmt 7
Получены три файла megablast , blastN2 и blastN2 . Сводная таблица по заданиям 1-2: таблица.

Поиск неправильно аннотированных генов программой blastx

Для выполнения этого задания необходимо было скачать последовательности предсказанных белков Bacillus_subtilis_spizizenii_TU_B_10_uid73967 . Они находятся в файле . По аналогии с 1 заданием была создана база для исходного файла и проведен BLAST командой blastx -query misc_rna.fasta -db NC_016047.faa -out task2.txt -outfmt 7 -evalue 0.001. Был получен следующий файл. Далее был получен список белков, которые бластуются как miscRNA.
  • gi|350264114|ref|YP_004875421.1| - seryl-tRNA synthetase
  • gi|350265855|ref|YP_004877162.1| - hypothetical protein GYO_1891
  • gi|350266923|ref|YP_004878230.1| - hypothetical protein GYO_2994
  • gi|350267023|ref|YP_004878330.1| - Aspartokinase II operon leader peptide
  • gi|350267478|ref|YP_004878785.1| - Uncharacterized protein
  • gi|350268036|ref|YP_004879343.1| - hypothetical protein GYO_4142
  • gi|350268036|ref|YP_004879343.1| - hypothetical protein GYO_4142
  • gi|350268183|ref|YP_004879490.1| - hypothetical protein GYO_4299
  • gi|350268183|ref|YP_004879490.1| -hypothetical protein GYO_4299
Можно заметить, что два из этих белков не являются hypothetical. Был проведен BLAST каждой из них, первая оказалась дейсвительно аннотированна правильно, так как BLAST даёт большое количество совпадений с e-value 0.0 и identity 100%.

Рис. 1. Результаты BLAST seryl-tRNA synthetase.


Со второй последовательностью было посложнее, так как её длина всего 40 а.о. Было найдено несколько гомологов.

Рис. 2. Результаты BLAST Aspartokinase II operon leader peptide.


Зависимость времени работы blastn от длины затравки

Длина затравки Время работы
16 0,204
15 0,224
14 0,268
13 0,276
12 0,296
11 0,320
10 0,356
9 0,544
8 0,644
7 1,356
6 4,152
5 14,728
4 55,896
Было построено две точечные диаграммы и апроксимации.

Рис. 3. Точечная диаграмма и апроксимация для первичных данных.

Рис. 4. Точечная диаграмма и апроксимация для логарифма времени.

Просвиров Кирилл. Дата последнего изменения: 4 октября 2014.