Программы пакета BLAST для работы с нуклеотидными последовательностями

1.

индексные файлы созданы с помощью команды: formatdb -i /home/export/samba/public/tmp/pm_genome.fasta -p f -n pm

2. 3.


Был произведен поиск с помощью программы TBLASTN в геноме  Pasteurella multocida.
Результаты занесены в таблицу.E-value находки не слишком хороший, поэтому были проверены
функции белка. 
найденный белок OTC_PASMU
 мой белок PYRB_ECOLI
И тот, и другой проявляют каталитическую активность, но для
разных реакций. Но, я думаю, что OTC_PASMU можно считать отдаленным гомологом PYRB_ECOLI.  
Тем более, что это предположение подтверждается последующим поиском по трем геномам.

 Кроме того, выравнивание для поиска по геному Pasteurella multocida можно посмотреть здесь:выравнивание
Поиск гомологов PyrB_ECOLI Геном бактерии Pasteurella multocida.
Число находок с Е-value<0,001  1
Характеристика лучшей находки:
   E-value находки  9e-16
  AC соответствующей записи EMBL  AE006119
  координаты выравнивания в записи EMBL  7294-8145
  Координаты CDS в записи EMBL (если они есть)  7282-8286
  AC UniProt в записи EMBL (если есть)  P57876
   Изменение E-Value при поиске по трем геномам (для Pasteurella multocida)  5e-15
   Количество находок при поиске по трем геномам  4
При поиске по трем геномам использовалась программа TBLASTN. Из Pasteurella multocida была только одна находка. 
Причем, находка с более плохим  E-value(объясняется увеличением базы поиска).Тем не менее координаты в EMBL совпадают
с полученными при поиске в геноме Pasteurella multocida. 
Лучшей же находкой оказалась находка в геноме Salmonella typhimurium. E-value: e-164. Возможно, наиболее вероятный гомолог 
 для моего белка PYRB_ECOLI находится не в геноме Pasteurella multocida, который предлагается в задании. 
Здесь можно найти выравнивание по трем геномам: выравнивание
 

4.

blastall -p blastn -d thr -i gene1.fasta -o blast_3.embl -e 0.001

Помимо этого, выравнивание можно найти здесь: gomolog.txt 
В поиске по трем геномам с помощью программы BLASTN не было обнаружено находки в Pasteurella multocida.
Единственная находка с подходящим E-value была в геноме Salmonella typhimurium. 

В записи EMBL был найден соответствующий ген. Вот его аннотация:

FT   CDS             complement(9100..10035)
FT                   /codon_start=1
FT                   /transl_table=11
FT                   /gene="pyrB"
FT                   /product="aspartate carbamoyltransferase, catalytic
FT                   subunit"
FT                   /EC_number="2.1.3.2"
FT                   /note="aspartate carbamoyltransferase catalytic chain.
FT                   (SW:PYRB_SALTY)"
FT                   /db_xref="GOA:P0A1Z4"
FT                   /db_xref="InterPro:IPR002082"
FT                   /db_xref="InterPro:IPR006130"
FT                   /db_xref="InterPro:IPR006131"
FT                   /db_xref="InterPro:IPR006132"
FT                   /db_xref="UniProtKB/Swiss-Prot:P0A1Z4"
FT                   /protein_id="AAL23279.1"

Можно сделать вывод,что был найден гомолог моего белка PYRB_ECOLI в геноме Salmonella typhimurium.

Что касается различий в работе программ BLASTN и TBLASTN, то, судя по полученным данным, TBLASTN скорее
 предназначена для поиска максимального числа гомологов, а BLASTN -  для поиска ближайших гомологов.
 Это видно из количества нахордок в том и другом случае,а также E-value находок. 
При поиске по трем геномам TBLASTN выдала куда большее число находок, но при этом их E-value не слишком хорош. 
В BLASTN же была получена только одна находка, но с хорошим E-value.
Причина же, по которой различались E-value для лучшей находки при поиске по трем геномам разными программами,
 видимо кроется в следующем:
при увелечении банка поиска (из-за увелечения длин нуклеотидных последовательностей), вероятность случайного
 совпадения в нуклеотидной последовательности сильно возрастает, так как аминокислот в 5 раз больше чем нуклеотидов.
Более того, так как одна аминокислота кодируется несколькими кодонами,возникает вырожденность, а соответственно
 появляются и штрафы за несовпадение, то есть гэпы, в следствие чего уменьшается вес нуклеотидного выравнивания,
в аминокислотном такого произойти не может.


вернуться на главную


©Пономарева Ольга