Занятие 8. Программы пакета BLAST для работы с нуклеотидными последовательностями

Все исходники можно найти в директории Term3/Blast.

Расшифровка:

  1. Поиск в геноме участков, кодирующих белки, похожие на заданный
  2. Известна аминокислотная последовательность белка из Escherichia coli K-12.
    Задача — определить, закодированы ли похожие белки в геноме другого организма, не пользуясь аннотацией генома.
    Для выполнения задачи:

    Я создал в своей рабочей директории индексные файлы пакета BLAST для поиска по геному X.campestris.
    Команда:(в bash)
    formatdb -i xc_genome.fasta -p F -n xc
    Файлы на выходе:
    xc.nhr,xc.nih,xc.ncq

    Используя программу TBLASTN пакета BLAST,провел соответствующий поиск участков с порогом на E-value 0,001.

    Команда:
    blastall -p tblastn -d xc -i pur3_ecoli.fasta -o out.txt -e 0.001 Файл на выходе:

    out.txt

    Результы поиска:

    Поиск гомологов белка PUR3_ECOLI в геноме бактерии Xanthomonas campestris

    Число находок с Е-value<0,001 3
    Характеристика лучшей находки:  
       E-value находки 3e-42
    AC соответствующей записи EMBL AE012391
    Координаты выравнивания(-ий) в записи EMBL 10100-10702
    Координаты CDS в записи EMBL (если есть) 10094-10747
    AC UniProt для этого CDS (если есть) Q8P723

  3. Аналогичный поиск сразу в нескольких геномах
  4. Создайте индексные файлы BLAST для поиска по всем трем геномам сразу.
    Команды:
    Заводим две переменные:

    - genpath=/home/export/samba/public/y07/Term3/EMBL
    - genomes="$genpath/st_genome.fasta $genpath/xc_genome.fasta $genpath/pm_genome.fasta"

    Используем команду formatdb:
    formatdb -i "$genomes" -p F -n all.

    Далее:
    blastall -p tblastn -d all -i pur3_ecoli.fasta -o out.txt -e 0.001.
    Выходные файлы:
    out_all.txt

    E-value лучшей находки: e-106
    Ee AC: AE008812
    Ор-м: Salmonella typhimurium
    Число находок с E-value < 0,001 : 10

  5. Поиск гомологов с помощью программы BLASTN
  6. 1.Для выполнения задания использовал запись EMBL:m13747
    2.Нашел в ней координаты соответствующей CDS и вырезал последнюю программой seqret в отдельный файл.

    Полученный файл:
    m13747.fasta

    3.Провел поиск гомологов этого гена в трёх геномах программой BLASTN.
    Полученныe файлы:

    out1.txt(E-value 0.001)
    out2.txt(без огран-я)

    В р-те:

    Файл out1.txt содержит только одну находку.
    Эта находка из ор-ма Salmonella typhimurium.
    AC(EMBL):AE008812
    В полученном файле имеются два выравнивания:

     Score =  238 bits (120), Expect = 1e-62
     Identities = 315/380 (82%)
     Strand = Plus / Plus
    
                                                                             
    Query: 238   cccgatgtggtcgtgctggctggttttatgcgcattctcagcccggcgtttgtctcccac 297
                 |||||||||||||||||||| ||||||||||| ||||| || |||  ||||||| | || 
    Sbjct: 17336 cccgatgtggtcgtgctggccggttttatgcgtattctgagtccgatgtttgtcgcgcat 17395
    
                                                                             
    Query: 298   tatgccgggcgtttgctgaacattcacccttctctgctgccgaaatatcccggattacac 357
                 ||   ||||||| ||||||||||||||||||| ||||| || |||||||| || || || 
    Sbjct: 17396 tactacgggcgtctgctgaacattcacccttccctgctaccaaaatatccggggttgcat 17455
    
                                                                             
    Query: 358   acccatcgtcaggcgctggaaaatggcgatgaagagcacggtacatcggtgcatttcgtc 417
                 |||||||| |||||||||||||| |||||||| ||||||||||| ||||| |||||||| 
    Sbjct: 17456 acccatcgccaggcgctggaaaacggcgatgaggagcacggtacctcggtacatttcgtg 17515
    
                                                                             
    Query: 418   accgatgaactggacggtggcccggttattttacaggcgaaagtcccggtatttgctggt 477
                 || || ||||| ||||| |||||||| ||| | |||||||| || ||||| |||||    
    Sbjct: 17516 acagacgaactcgacggcggcccggtcattctccaggcgaaggtgccggtttttgccaac 17575
    
                                                                             
    Query: 478   gattcggaagatgacatcaccgcccgcgtgcaaacccaggaacacgccatttatccactg 537
                 ||    |||||||| |||||||| ||||| || || |||||||| || |||||||| |||
    Sbjct: 17576 gacagcgaagatgatatcaccgcacgcgtacagactcaggaacatgcgatttatccgctg 17635
    
                                                                             
    Query: 538   gtgattagctggtttgccgatggtcgtctgaaaatgcacgaaaacgccgcgtggctggat 597
                 |||||||||||||||||  | || ||||| || |||| ||| |||||||| |||||||| 
    Sbjct: 17636 gtgattagctggtttgcgcaggggcgtctaaagatgcgcgataacgccgcctggctggac 17695
    
                                     
    Query: 598   ggtcaacgtctgccgccgca 617
                 || |  ||||||||||||||
    Sbjct: 17696 gggcgtcgtctgccgccgca 17715
    
    и
    
    Score =  155 bits (78), Expect = 2e-37
    Identities = 123/138 (89%)
    Strand = Plus / Plus
    
                                                                             
    Query: 1     atgaatattgtggtgcttatttccggcaacggaagtaatttacaggcaattattgacgcc 60
                 ||||||||||||||||| ||||||||||| ||||| ||||||||||| ||||| || |||
    Sbjct: 17099 atgaatattgtggtgctgatttccggcaatggaagcaatttacaggcgattatcgatgcc 17158
    
                                                                             
    Query: 61    tgtaaaaccaacaaaattaaaggcaccgtacgggcagttttcagcaataaggccgacgcg 120
                 ||  || | || ||||||||||||||| |  ||||||| |||||||||||||||||||||
    Sbjct: 17159 tgcgaagcgaagaaaattaaaggcaccctcagggcagtattcagcaataaggccgacgcg 17218
    
                                   
    Query: 121   ttcggccttgaacgcgcc 138
                 ||||||||||||||||||
    Sbjct: 17219 ttcggccttgaacgcgcc 17236
    
    Соответственно E-value лучшей находки 1e-62
    
    Аннотация соответствующего фрагмента генома Salmonella typhimurium LT2 приведена здесь. 
                                                                              
    
    
    Cравнение с предыдущим упражнением:

    В отличии от вторго упражнения, когда на вход программе подавалась аминокислотная последовательность белка находка в упражнении 3 (на вход подавалась нуклеотидная последовательность гена) при ограничении на E-value оказалась всего одна (во втором упр-ии находок было 10).
    1.По результатам выравниваний в обоих упражнениях лучшей была находка из ор-ма Salmonella typhimurium с AC:AE008812.
    2.Отличие в выравниваниях заключено в значениях score.
    Во 2-м упражнении score лучшей находки - 379.
    В 3-м упражнении score лучшей находки - 238.
    При выравнивании нуклеотидных последовательностей заданного гена и найденного гена этой бактерии
    процент идентичности равен 82%.
    совпадают 315 из 380 нуклеотидов.
    В предыдущем же упражнении процент идентичности равен 87%.
    и совпадают 186 из 212 аминокислотных остатков.
    В р-те можно сделать вывод о том, что аминокислотная последовательность более консервативна (в отличии от генетического кода).
Главная страница
©Голяев Виктор