Занятие 3. Программы пакета BLAST для работы с нуклеотидными последовательностями

    Поиск в геноме участков, кодирующих белки, похожие на заданный

    Для поиска гомологов с помощью программы TBLASTN была применена следующая команда UNIX: blastall -p tblastn -d pm -i KPYK1_ECOLI.fasta -e 0.001 -o vsyo
    Поиск гомологов KPYK1_ECOLI Геном P. multocida
    Число находок с Е-value<0,001 1
    Характеристика лучшей находки:  
       E-value находки 9e-83
      AC соответствующей записи EMBL AE006101
      координаты выравнивания(-ий) в записи EMBL 6695-8116
      Координаты CDS в записи EMBL (если они есть) complement(6689..8128)
      AC UniProt в записи EMBL (если есть) Q9CMZ7

    Выводы:

    Координаты CDS отличаются от координат выравнивания на 18 нуклеотидов. Дело в том, что BLAST провел локальное выравнивание, которое могло не содержать некоторое количество нуклеотидов, и еще в записи CDS содержится стоп-кодон. По аннотации Uniprot было подтверждено, что найденный гомолог также является пируваткиназой.

  1. Аналогичный поиск сразу в нескольких геномах
  2. Для поиска гомологов с помощью программы TBLASTN была применена следующая команда UNIX: blastall -p tblastn -d vse_srazu -i KPYK1_ECOLI.fasta -e 0.001 -o vse_srazu_out
    Поиск гомологов KPYK1_ECOLI Геном P. multocida, X. campestris, S. typhimurium
    Число находок с Е-value<0,001 4
    Характеристика лучшей находки:  
       E-value находки 5e-82
      AC соответствующей записи EMBL AE006101
      координаты выравнивания(-ий) в записи EMBL 8116-6695
      Координаты CDS в записи EMBL (если они есть) complement(6689..8128)
      AC UniProt в записи EMBL (если есть) Q9CMZ7
      как изменился E-value той находки, которая была лучшей по результатам предыдущего упражнения 5е-82
      как изменилось общее число находок с E-value < 0,001 с одной до четырех

    Так как база поиска гомологов увеличилась, следовательно, увеличилось количество гомологов. Лучшая и единственная находка бактерии Pasteurella multocida оказалась с e-value 5e-82, в 5 раз больше, чем в прошлый раз, что связано с увеличением размера банка (количество аминокислот в 5 раз больше нуклеотидов). Интересно наблюдать, что первым оказался гомолог бактерии S. typhimurium с e-value 0.0 KPYK_SALTY, также являющийся пируваткиназой 1, полностью совпадающей с пируваткиназой KPYK1_ECOLI (по результатам BLASTP на сайте NCBI). Выдача TBLASTN показала, что среди геномов бактерий P. multocida, X. campestris, S. typhimurium есть очень близкие гомологи белка KPYK1_ECOLI, судя по их e-value.

  3. Поиск гомологов с помощью программы BLASTN
  4. Для поиска гомологов с помощью программы BLASTN была применена следующая команда UNIX:
    blastall -p blastn -d vse_srazu -i cp000800_KPYK1_ECOLI_gene2.fasta -e 0.001 -o vse_srazu_gene_out
    Поиск гомологов KPYK1_ECOLI Геном P. multocida, X. campestris, S. typhimurium
    Число находок с Е-value<0,001 1
    Характеристика лучшей находки:  
       E-value находки 0.0
      AC соответствующей записи EMBL AE006468
      координаты выравнивания(-ий) в записи EMBL 9270-7858
      Координаты CDS в записи EMBL (если они есть) complement(7858..9270)
      AC UniProt в записи EMBL (если есть) P77983

    Выравнивание по BLASTN дало в результате только 1 гомолог с e-value 0.0, что еще раз подтверждает высокую схожесть гена пируваткиназы E.coli и S. typhimurium. Гомологов из гена бактерии P. multocida в выдаче к удивлению не оказалось вообще. Причиной этого может быть вырожденность генетического кода, (т.е. триплеты, кодирующие аминокислоту , могут оканчиваться на разные нуклеотиды), а также увеличение банка, по которому проводился поиск. При большом количестве различающихся "окончаний" в триплетах e-value может резко снизиться и гомолог не попадет в выдачу BLASTN. Таким образом, TBLASTN является более чувствительным по отношению к поиску гомологов, т.е. является хорошим инструментом для их выявления. А BLASTN позволяет выявлять только очень близкие гомологи.

    В результате работы выявлено, что в "неаннотированных" геномах бактерий P. multocida, X. campestris, S. typhimurium закодированы белки, похожие на KPYK1_ECOLI. Такой вывод делается потому, что несмотря на то, что BLASTN выдал только 1 гомолог, e-value в выдаче TBLASTN показывает достаточную близость гомологов к белку KPYK1_ECOLI.