Занятие 3. Программы пакета BLAST для работы с нуклеотидными последовательностями

  1. Создание индексных файлов для программ пакета BLAST
  2. В рабочей директории были созданы индексные файлы пакета BLAST для поиска по геному Xanthomonas campestris

    formatdb -i xc_genome.fasta -p F -n xc (/home/export/samba/public/tmp/xc_genome.fasta)

    .

  3. Поиск в геноме участков, кодирующих белки, похожие на заданный
  4. С помощью аминокислотной последовательности белка PHR_ECOLI из Escherichia coli K-12 я определил, не закодированы ли похожие белки в неаннотированных геномах Salmonella typhimurium, Pasteurella multocida, Xanthomonas campestris.

    Для решения данной задачи наиболее подходящая программа из пакета BLAST - это tblastn.

    blastall -p tblastn -d xc -i PHR_ECOLI.fasta -o xcvsphr -e 0.001

    По результатам поиска была заполнена таблица:
    Поиск гомологов PHR_ECOLI Геном Xanthomonas campestris
    Число находок с Е-value<0,001 1
    Характеристика лучшей находки:  
       E-value находки 2e-72
      AC соответствующей записи EMBL AE012243
      координаты выравнивания(-ий) в записи EMBL 5274...6686
      Координаты CDS в записи EMBL (если они есть) 5238...6692
      AC UniProt в записи EMBL (если есть) Q8PAP4
      Геномы Salmonella typhimurium, Pasteurella multocida, Xanthomonas campestris
    Число находок с Е-value<0,001 2
    E-value находки AE012243 6е-72

    На первом месте в списке находок стоял белок, E-value которого на десятки порядков отличался от остальных(2e-72, а следующий уже 2.4). Это дает основания назвать данный белок гомологом phr_ecoli c большой долей вероятности. При поиске по всем геномам E-value гомолога повысился, что связано с увеличением базы данных поиска. Однако изменение E-value с 2e-72 на 6е-72 нельзя назвать кардинальным, т.е. программа находит гомологов с довольно высокой точностью даже при увеличении базы данных.

  5. Аналогичный поиск сразу в нескольких геномах
  6. blastall -p tblastn -d xcstpm -i PHR_ECOLI.fasta -o allvsphr -e 0.001
    (/home/export/samba/public/tmp/xc_genome.fasta)
    (/home/export/samba/public/tmp/st_genome.fasta)
    (/home/export/samba/public/tmp/pm_genome.fasta)
        

  7. Поиск гомологов с помощью программы BLASTN
  8. blastall -p blastn -d xcstpm -i phr_ecolik12.fasta -o blastnall
    
    >AE012505 AE008922 |AE012505| Xanthomonas campestris pv. campestris
                str. ATCC 33913,  section 413 of 460 of the complete
                genome.
              Length = 10606
    
     Score = 36.2 bits (18), Expect = 0.22
     Identities = 18/18 (100%)
     Strand = Plus / Plus
    
                                  
    Query: 1077 ctggcgcgaaggcgagcg 1094
                ||||||||||||||||||
    Sbjct: 4867 ctggcgcgaaggcgagcg 4884
    

    Участок списка:
    AE008728 AE006468 |AE008728| Salmonella typhimurium LT2, section...   180   6e-45
    ...
    AE012505 AE008922 |AE012505| Xanthomonas campestris pv. campestr...    36   0.22 
    Не все лучшие находки поиска по всем геномам попали в список: AE008728 сталась на первом месте, а AE012243 исчезла из списка(участок xanthomonas). Из xanthomonas первым стоит AE012505, выравнивание которого приведено выше. E-value AE008728 резко ухудшилось, а тот AE012243 который при поиске с помощью blastn был лучшим вообще исчез. Вероятно, такой эффект вызван тем, что Blastn ищет НК в НК, а tblastn ищет белок в НК(т.е. потому что одна и та же аминокислота в белке может задаваться несколькими кодонами, что увеличивает количество вариантов в поиске) - это влияет на E-value. К тому же длина выравнивания резко уменьшилась.




    вернуться к 3 семестру