На главную страницу третьего семестра

Занятие 3. Программы пакета BLAST для работы с нуклеотидными последовательностями

  1. Создание индексных файлов для работы с локальными версиями программ семейства BLAST

  2. В рабочей директории создаем индексные файлы пакета BLAST для поиска по геному Vibrio cholerae командой
    formatdb -i vc_genome.fasta -p F -n vc
    и индексные файлы для геномов трех организмов (Vibrio cholerae, Pseudomonas aeruginosa и Pasteurella multocida):
    genpath=/home/students/haaalbert/Term3/BLASST/
    genomes="$genpath/vc_genome.fasta $genpath/pa_genome.fasta $genpath/pm_genome.fasta"
    formatdb -i "$genomes" -n 3g -p F

  3. Поиск в неаннотированном геноме и геномах генов, кодирующих белки, похожие на заданный
  4. Известна аминокислотная последовательность белка deoC_ECOLI из Escherichia coli K-12.
    Задача — определить, не закодированы ли похожие белки в неаннотированном геноме и геномах другого организма. Пользуемся программой TBlastN из пакета Blastall.

    Результаты поиска

    Поиск гомологов deoC_Ecoli Геном Vibrio cholerae 3 генома
    Характеристика лучшей находки:    
         E-value находки e-103 e-103
      координаты выравнивания(-ий)
    в записи генома
    complement(5474..6178) complement(5474..6178)
    AC соответствующей записи EMBL AE004305 AE004305
      Координаты CDS в записи EMBL (если они есть) complement(5399..6178) complement(5399..6178)
      AC UniProt в записи EMBL (если есть) Q9KPL7 Q9KPL7
    Число находок с Е-value<0,01
    1 (только эта) 2

    Вторая находка при поиске в трех геномах имеет следующие параметры:
    E-value = 8e-16, Position 8784..9299, запись в аннотированном геноме AE006172 с положением 8721..9392, белок P57937. Это тоже ген DeoC, кодирующий белок DeoC.

  5. Поиск гомологов с помощью программы BLASTN
  6. Берем fasta-последовательность гена DeoC. Ищем гомологов этого гена в трёх геномах программой BLASTN.

    Результаты

    Поиск гомологов DeoC_Ecoli Геном Vibrio cholerae 3 генома
    Характеристика лучшей находки:    
         E-value находки 2e-44 5e-44
      координаты выравнивания(-ий)
    в записи генома
    complement(5463..6151) complement(5463..6151)
      Выравнивание здесь здесь
    AC соответствующей записи EMBL AE004305 AE004305
      Координаты CDS в записи EMBL (если они есть) complement(5399..6178) complement(5399..6178)
      AC UniProt в записи EMBL (если есть) Q9KPL7 Q9KPL7
    Число находок с Е-value<0,01
    2 1

    Второе выравнивание имеет E-value 0.010 и длину 19 нуклеотидов. Соответствующий белок - DNA gyrase, subunit A (ДНК-топоизомераза II), аминокислотная последовательность MEVIR, кодируемая этими нуклеотидами ни в одном из белков не расположена в активном центре, поэтому можно находку не считать находкой. При поиске по 3 геномам она уже не входит в находки с E-value < 0.01, а имеет E-value = 0.031

©Хайруллин Альберт