Программы пакета BLAST для работы с нуклеотидными последовательностями


На главную страницу третьего семестра

  1. Создание индексных файлов для работы с локальными версиями программ семейства BLAST
  2. В файлах pm_genome.fasta — полный геном бактерии Pasteurella multocida; vc_genome.fasta включает последовательности из EMBL, составляющие полный геном холерного вибриона (Vibrio cholerae); pa_genome.fasta — полный геном синегнойной палочки (Pseudomonas aeruginosa). На их основе созданы индексные файлы к каждому из геномов поотдельности (так выглядят команды, выполняемые на kodomo-count):

    formatdb -i vc_genome.fasta -p F -n vc
    formatdb -i pa_genome.fasta -p F -n pa
    formatdb -i pm_genome.fasta -p F -n pm
    и индексный файл для поиска по всем трем геномам сразу: для удобства сначала создаются текстовые переменные, а затем уже запускается formatdb:
    genpath=/home/export/samba/public/tmp
    genomes="$genpath/vc_genome.fasta $genpath/pa_genome.fasta $genpath/pm_genome.fasta"
    formatdb -i "$genomes" -n 3g -p F
    Программа formatdb создает в текущей директории три файла с расширениями nhr, nin и nsq (т.е. на данный момент получено 12 файлов).

  3. Поиск в неаннотированном геноме генов, кодирующих белки, похожие на заданный; поиск сразу по трем генам
  4. Итак, известна аминокислотная последовательность белка ASPG2_ECOLI. Задача — определить, не закодированы ли похожие белки в неаннотированном геноме другого организма. Для этих целей выбирается программа TBLASTN пакета BLAST. Используемая команда (** - vc, pa, pm либо 3g):
    blastall -p tblastn -d ** -i aspg2_ecoli.fasta -o **_asp_t.txt
    Результаты заношу в таблицу:

    Поиск по трем геномам отдельно
    Поиск гомологов ASPG2_ECOLI Геном Vibrio cholerae Геном Pseudomonas aeruginosa Геном Pasteurella multocida
    Характеристика лучшей находки:  
         E-value находки 3*10-16 6*10-74 4.9
      координаты выравнивания(-ий)
    в записи генома
    5399 - 6208 4436 - 3507 4475 - 4392
    AC соответствующей записи EMBL AE004274; AE003852 AE004563 (был заменен 12 июля на AE004091) AE006188; AE004439
      Координаты CDS в записи EMBL (если они есть) 5222 - 6235 3169 - 4278; 4275 - 6695 3399 - 4928 (комплемент.)
      AC UniProt в записи EMBL (если есть) Q9KQK3 - Q9CKU1
    Число находок с Е-value<0,01
    1 2 0
    Поиск по всем трем геномам одновременно
    Е-value лучшей находки 9*10-16 1*10-73 -
    Число находок с Е-value<0,01 3

    Результаты поиска TBLASTN:

    АС в UniProt; координаты CDS в записи EMBL идентифицированы в файлах AE004274.entret и AE006188.entret для геномов Vibrio cholerae и Pasteurella multocida соответственно [пример команды:
    entret embl:AE004274 -auto
    ]. Получить запись EMBL через командную строку мне не удалось, поэтому я прибегла к системе поиска SRS (http://srs.ebi.ac.uk/). Итак, в случае поиска по отдельным индексным файлам, получены следующие результаты: по малому значению E-value локальных выравниваний и фактическому совпадению координат выравнивания/координат CDS в геноме логично предположить, что похожий на исследуемый Белок (ASPG2_ECOLI) закодирован в геноме другого организма (например, Vibrio cholerae: запись
    product L-asparaginase I
    файла подтверждает мое предположение; в случае с Pseudomonas aeruginosa меня сразу смущает "расхождение направлений" координат выравнивания/координат CDS); в геноме Pasteurella multocida белок, похожий на ASPG2_ECOLI, очевидно, не закодирован.

    В случае поиска по трем геномам одновременно, не изменилось число находок с Е-value<0,01; незначительно изменились и сами значения Е-value лучших находок. Это согласуется с тем, что при уменьшении объема выборки происходит уменьшение E-value, следовательно, достоверность находки увеличивается (подтверждение вышесказанного).

  5. Поиск гомологов с помощью программы BLASTN
  6. Проведен поиск гомологов гена m34234 в трёх геномах программой BLASTN. Соответствующая команда:
    blastall -p blastn -d 3g -i m34234.fasta -o 3g_m34234_bln.txt
    Выбрано по 1 лучшей находке для каждого из геномов (значения E-value выделены жирным шрифтом/подчеркиванием в правом столбце):

    AC соответствующей записи EMBL: AE004286, AE003852

    Vibrio cholerae
    >embl|AE004286|AE004286 Vibrio cholerae O1 biovar eltor str. N16961
                chromosome I, section 194 of 251 of the complete
                chromosome.
              Length = 10185
    
     Score = 34.2 bits (17), Expect = 0.66
     Identities = 17/17 (100%)
     Strand = Plus / Plus
    
                                 
    Query: 57   agcattggcattaccca 73
                |||||||||||||||||
    Sbjct: 7749 agcattggcattaccca 7765
    Аннотация соответствующего фрагмента генома:
    • AC соответствующей записи EMBL: AE004286, AE003852
    • Координаты CDS в записи EMBL: 7407 - 8462 (комплемент.)
    • AC UniProt в записи EMBL: O30663
    • данная находка случайная, указан абсолютно другой продукт гена (белок sensory box sensor histidine kinase)
    Pseudomonas aeruginosa
    >embl|AE004563|AE004563 Pseudomonas aeruginosa PAO1, section 124 of
                529 of the complete genome.
              Length = 9937
    
     Score = 50.1 bits (25), Expect = 1e-05
     Identities = 49/57 (85%)
     Strand = Plus / Minus
    
                                                                         
    Query: 306  cgacggcttcgtcattacccacggtaccgacacgatggaagaaactgcttacttcct 362
                ||||||| |||| || |||||||||||||||||  ||||||| || || ||||||||
    Sbjct: 4245 cgacggcatcgtgatcacccacggtaccgacaccctggaagagaccgcctacttcct 4189
    Аннотация соответствующего фрагмента генома:
    • AC соответствующей записи EMBL: AE004563 (был заменен 12 июля на AE004091)
    • Координаты CDS в записи EMBL: 3169 - 4278; 4275 - 6695
    • AC UniProt в записи EMBL: нет
    • Записи в поле "product": product="RecF protein" и product="DNA gyrase subunit B"
    Pasteurella multocida - Аннотация соответствующего фрагмента генома:

    -

    Только в случае генома Pseudomonas aeruginosa вообще можно было бы предположить, что программа BLASTN нашла гомолог (о чем свидетельствуют характеристики выравнивания - в частности, Е-value<0,01; длина). Таким образом, программа BLASTN оказывается неэффективной для поиска гомологов кодирующих последовательностей. Это неудивительно, учитывая особенности алгоритма (так использование достаточно большого якоря в 11 пар нуклеотидов приводит к поиску строго идентичных, протяженных участков последовательности; чем якорь длиннее, тем больше вероятность "нахватать лишнего"). Вырожденность генетического кода так же снижает чувствительность программы.


©NADEZDA TUKHTUBAEVA,2006