На главную
Третий семестр


Программы пакета BLAST для работы с нуклеотидными последовательностями

Поиск в геноме участков, кодирующих белки, похожие на заданный

Исходя из аминокислотной последовательности белка METK_ECOLI из Escherichia coli K-12, были определены, закодированы ли похожие белки в геноме организма Pasteurella multocida.

Для этого были созданы 3 индексированных файла пакета BLAST (pm.nhr, pm.nin, pm.nsq) для поиска по заданному геному.

Команда: formatdb -i pm_genome.fasta -p F -n pm

Далее выполнялась программа TBLASTN из пакета BLAST, в которой был заложен поиск с порогом на E-value 0,001.

Команда: blastall -p tblastn -d pm -i metk_ecoli.fasta -o pm_out.txt -e 0.001

Выходной файл pm_out.txt содержал следующую информацию:

Число находок с Е-value<0,001 1
Характеристика лучшей находки:  
   E-value находки 0.0
AC соответствующей записи EMBL AE006143
Координаты выравнивания в записи EMBL 6304 - 7455
Координаты CDS в записи EMBL 6301 - 7455

Аналогичный поиск сразу в нескольких геномах

Командой formatdb -i pm_genome.fasta" "st_genome.fasta" "xc_genome.fasta -p F -n 3 произведен поиск по трем геномам: Pasteurella multocida, Salmonella typhimurium и Xanthomonas campestris.

В ходе выполнения команды TBLASTN получен выходной файл 3_out.txt

Найдены 3 последовательности:

AE008842 из Salmonella typhimurium с e-value=0.0,

AE006143 из Pasteurella multocida с e-value=0.0,

AE012176 из Xanthomonas campestris с e-value=e-162.

Таким образом, поиск выдает 3 белка из трех различных организмов, в том числе и замеченный раннее AE006143. Однако в этой выдаче находка не является наилучшей: AE008842 имеет значение Score, равное 754 bits, в то время как AE006143 всего 655.

Поиск гомологов с помощью программы BLASTN

Для выполнения упражнения получен fasta-файл с последовательностью из генома E.coli, кодирующей белок. Для этого в записи Swiss-Prot были найдены ссылки на банк EMBL, по данному номеру получена соответствующая запись EMBL с искомым CDS. Нужный участок был вырезан программой seqret.

Был произведен поиск гомологов этого гена в трех геномах программой BLASTN. Соответствующая команда - blastall -p blastn -d 3 -i K02129.fasta -o METK_ECOLI.txt

Итак, в результате программа выдала 25 гомологов.
Наилучшие 3 находки - уже хорошо известные нам AE008842, AE006143, AE012176. Но стоит заметить, что они с измененными значениями e-value: 0.0, 5e-27, 3e-13, соответственно. Что касается параметра score, то здесь явное преимущество имеет AE008842 со своими 1009 bits, против 121 и менее.


©Третьякова Светлана, 2008