Для этого были созданы 3 индексированных файла пакета BLAST (pm.nhr, pm.nin, pm.nsq) для поиска по заданному геному.
Команда: formatdb -i pm_genome.fasta -p F -n pm
Далее выполнялась программа TBLASTN из пакета BLAST, в которой был заложен поиск с порогом на E-value 0,001.
Команда: blastall -p tblastn -d pm -i metk_ecoli.fasta -o pm_out.txt -e 0.001
Выходной файл pm_out.txt содержал следующую информацию:
Число находок с Е-value<0,001 | 1 | |
Характеристика лучшей находки: | ||
E-value находки | 0.0 | |
AC соответствующей записи EMBL | AE006143 | |
Координаты выравнивания в записи EMBL | 6304 - 7455 | |
Координаты CDS в записи EMBL | 6301 - 7455 |
В ходе выполнения команды TBLASTN получен выходной файл 3_out.txt
Найдены 3 последовательности:
AE008842 из Salmonella typhimurium с e-value=0.0,
AE006143 из Pasteurella multocida с e-value=0.0,
AE012176 из Xanthomonas campestris с e-value=e-162.
Таким образом, поиск выдает 3 белка из трех различных организмов, в том числе и замеченный раннее AE006143. Однако в этой выдаче находка не является наилучшей: AE008842 имеет значение Score, равное 754 bits, в то время как AE006143 всего 655.
Был произведен поиск гомологов этого гена в трех геномах программой BLASTN. Соответствующая команда - blastall -p blastn -d 3 -i K02129.fasta -o METK_ECOLI.txt
Итак, в результате программа выдала 25 гомологов.
Наилучшие 3 находки - уже хорошо известные нам AE008842, AE006143, AE012176. Но стоит заметить, что они с измененными значениями e-value: 0.0, 5e-27, 3e-13, соответственно. Что касается параметра score, то здесь явное преимущество имеет AE008842 со своими 1009 bits, против 121 и менее.