Занятие 3. Программы пакета BLAST для работы с нуклеотидными последовательностями

  1. Создание индексных файлов для программ пакета BLAST
  2. Заданный геном: pm_genome.fasta — полный геном бактерии Pasteurella multocida.
    Индексные файлы были получены командой «formatdb –i pm_genome.fasta –p F –n pm»
    Соответственно, получены файлы pm.nhr, pm.nin, pm.nsq

  3. Поиск в геноме участков, кодирующих белки, похожие на заданный
  4. Получен файл res2 «blastall –p tblastn –d pm –i PABB_ECOLI.fasta –o res2 –e 0.001»
    Поиск гомологов PABB_ECOLI Геном Pasteurella multocida
    Число находок с Е-value<0,001 2
    Характеристика лучшей находки:  
       E-value находки 1e-39
      AC соответствующей записи EMBL AE006094
      координаты выравнивания в записи EMBL 2735...1647
      Координаты CDS в записи EMBL complement(1614..3164)
      AC UniProt в записи EMBL Q9CN59
    Выравнивание белков дает лишь 29% идентичности. Такую находку проблематично назвать слишком удачной.
    Score =  157 bits (397), Expect = 1e-39
     Identities = 108/368 (29%), Positives = 187/368 (50%), Gaps = 24/368 (6%)
     Frame = -3
    
    Query: 108  GLFGYDLGRRFESLPEIAEQDIVL--PDMAVGIYDWALIVDHQRHTVSLLSH-------- 157
                GLF YDL  +F  +  I  Q+  L  PD    + +  L +DHQ     L S         
    Sbjct: 2735 GLFAYDLVTQFIPMDNIQLQEDGLDCPDYCFYLAEHQLTLDHQLQQAQLHSFCFAPQYQT 2556
    
    Query: 158  ------NDVNARRAWLESQQFSPQEDFTLTSDWQSNMTREQYGEKFRQVQEYLHSGDCYQ 211
                      + +  + A +E        D TLT+    N+   Q+ +  + ++++L+ GD +Q
    Sbjct: 2555 ALQQQADQIIQKFANIEPHLHCVSADTTLTT----NLDDVQFKQIIQVLKQHLYQGDVFQ 2388
    
    Query: 212  VNLAQRFHATYSGDEWQAFLQLNQANRAPFSAFLRLEQGAILSLSPERFILCDNS--EIQ 269
                +  ++RF      +   ++ QL   N +P+  F++ E   +   SPE  +       +++
    Sbjct: 2387 IVPSRRFSLACP-NTLASYRQLKHTNPSPYMFFMQDEDFTLFGASPESALKYTQQTRQLE 2211
    
    Query: 270  TRPIKGTLPR------LPDPQEDSKQAVKLANSAKDRAENLMIVDLMRNDIGRVAVAGSV 323
                  PI G+ PR        DP+ D++  ++L    K+ AE+LM+VDL RNDI RV   G+ 
    Sbjct: 2210 IYPIAGSRPRGFYPNGQIDPELDARLELELRLDQKELAEHLMLVDLARNDIARVCETGTR 2031
    
    Query: 324  KVPELFVVEPFPAVHHLVSTITAQLPEQLHASDLLRAAFPGGSITGAPKVRAMEIIDELE 383
                +V +L  V+ +  + HLVS +  +L  +L A    +A    G++TGAPK++AM+++ ++E
    Sbjct: 2030 QVADLMQVDRYSHIMHLVSRVVGKLRPELDALHAYQACMNMGTLTGAPKIKAMQLLYQVE 1851
    
    Query: 384  PQRRNAWCGSIGYLSFCGNMDTSITIRTLTAINGQIFCSAGGGIVADSQEEAEYQETFDK 443
                 Q+R+++ G++GYL+  G++DT I IR+     G  +  AG G V DS  + E  ET  K
    Sbjct: 1850 QQKRHSYGGAVGYLASNGDLDTCIVIRSAFVQQGIAYIQAGCGEVLDSDPQKEADETRHK 1671
    
    Query: 444  VNRILKQL 451
                   ++  +
    Sbjct: 1670 AQAVINAI 1647
     
    

  5. Аналогичный поиск сразу в нескольких геномах
  6. dir=/home/export/samba/public/tmp
    genomes="$dir/pm_genome.fasta $dir/st_genome.fasta $dir/xc_genome.fasta"
    formatdb -i "$genomes" -n 3gen -p F
    blastall -p tblastn -e 10 -d 3gen -i HMP_ECOLI.fasta -o tblastn3gen.txt
    

    Получен файл tblastn3gen.txt
    Поиск гомологов PABB_ECOLI Геном Pasteurella multocida Геном Salmonella typhimurium Геном Xanthomonas campestris
    Число находок с Е-value<0,001 2 3 2
    Характеристика лучшей находки:      
       E-value находки 6e-39 0.0 1e-59
      AC соответствующей записи EMBL AE006094 AE008781 AE012143
      координаты выравнивания в записи EMBL 2735...1671 7242...8597 8473...9855
      Координаты CDS в записи EMBL complement(1614..3164) 7239..8603 8428..9903
      AC UniProt в записи EMBL Q9CN59 P12680 Q8PD81

    Поиск сразу по трем геномам оказался продуктивнее, но лишь засчет того, что ранее не исследованном геноме нашелся более гомологичный исходному белку PABB белок. E-value предыдущей находки возрос, но незначительно(с 1е-39 до 6e-39). Размер базы данных повлиял на него незначительно. Поэтому, выгоднее и быстрее искать сразу по нескольким интересующим нас геномам.

  7. Поиск гомологов с помощью программы BLASTN
  8. Получен файл resgene «blastall –p blastn –d all –i pabb_gene.fasta –o resgene –e 0.001»
    Лучшая находка - AE008781 из Salmonella typhimurium LT2. E-value - 9e-41.
    Выравнивания
    >AE008781 AE006468 |AE008781| Salmonella typhimurium LT2, section 85
                of 220 of the complete genome.
              Length = 21540
    
     Score =  167 bits (84), Expect = 9e-41
     Identities = 144/164 (87%)
     Strand = Plus / Plus
    
                                                                            
    Query: 1069 ctgctgcgcgcagcttttcctggtggctcaataaccggggctccgaaagtacgggctatg 1128
                ||||||||||| ||||| || || ||||| || ||||| || || ||||| ||||| |||
    Sbjct: 8310 ctgctgcgcgcggctttccccggcggctccattaccggcgcgcctaaagtgcgggcaatg 8369
    
                                                                            
    Query: 1129 gaaattatcgacgaactggaaccgcagcgacgcaatgcctggtgcggcagcattggctat 1188
                |||||||||||||||||||| |||||||||||||| ||||||||||| ||||| || |||
    Sbjct: 8370 gaaattatcgacgaactggagccgcagcgacgcaacgcctggtgcggtagcatcggttat 8429
    
                                                            
    Query: 1189 ttgagcttttgcggcaacatggataccagtattactatccgcac 1232
                 |||| || |||||||| ||||||||||||||||||||||||||
    Sbjct: 8430 ctgagtttctgcggcaagatggataccagtattactatccgcac 8473
    
    
    
     Score =  115 bits (58), Expect = 3e-25
     Identities = 133/158 (84%)
     Strand = Plus / Plus
    
                                                                            
    Query: 874  aaactggcgaactcagcgaaagatcgtgccgaaaatctgatgattgtcgatttaatgcgt 933
                |||||||| || |||  ||||||||| || |||||| |||||||||||||||| ||||||
    Sbjct: 8115 aaactggctaattcaatgaaagatcgcgctgaaaatttgatgattgtcgatttgatgcgt 8174
    
                                                                            
    Query: 934  aatgatatcggtcgtgttgccgtagcaggttcggtaaaagtaccagagctgttcgtggtg 993
                || ||||| || || || |||||| |||||||||| ||||| || || |||||||| || 
    Sbjct: 8175 aacgatattggccgggtcgccgtaccaggttcggtgaaagtgccggaactgttcgtcgtc 8234
    
                                                      
    Query: 994  gaacccttccctgccgtgcatcatctggtcagcaccat 1031
                ||||| || |||||||| || |||||||| ||||||||
    Sbjct: 8235 gaaccatttcctgccgttcaccatctggttagcaccat 8272
    
    
    
     Score =  107 bits (54), Expect = 7e-23
     Identities = 69/74 (93%)
     Strand = Plus / Plus
    
                                                                            
    Query: 1285 gccgatagccaggaagaagcggaatatcaggaaacttttgataaagttaatcgtatcctg 1344
                ||||||||| | ||||||||||||||||||||||||||||||||||||||||||||||||
    Sbjct: 8526 gccgatagcaacgaagaagcggaatatcaggaaacttttgataaagttaatcgtatcctg 8585
    
                              
    Query: 1345 aagcaactggagaa 1358
                 | | |||||||||
    Sbjct: 8586 cacccactggagaa 8599
    
    
    
     Score = 65.9 bits (33), Expect = 2e-10
     Identities = 51/57 (89%)
     Strand = Plus / Plus
    
                                                                         
    Query: 1    atgaagacgttatctcccgctgtgattactttactctggcgtcaggacgccgctgaa 57
                |||||||||||||||||| |||| || || |||| |||||||| |||||||||||||
    Sbjct: 7242 atgaagacgttatctcccactgttatcaccttaccctggcgtccggacgccgctgaa 7298
    
    
    
     Score = 52.0 bits (26), Expect = 4e-06
     Identities = 110/138 (79%)
     Strand = Plus / Plus
    
                                                                            
    Query: 549  ctggcaatccaatatgacccgcgagcagtacggcgaaaaatttcgccaggtacaggaata 608
                |||||||||||||||||| ||     |||| ||||| || ||||| ||||| ||||  | 
    Sbjct: 7790 ctggcaatccaatatgacgcgttgcgagtatggcgagaagtttcgtcaggtgcaggcctg 7849
    
                                                                            
    Query: 609  tctgcacagcggtgattgctatcaggtgaatctcgcccaacgttttcatgcgacctattc 668
                 ||||||||||| || ||||||||||| |||||  |||| |||||||| |||| |||   
    Sbjct: 7850 gctgcacagcggggactgctatcaggtcaatctttcccagcgttttcaggcgagctacga 7909
    
                                  
    Query: 669  tggcgatgaatggcaggc 686
                 || ||||||||||||||
    Sbjct: 7910 gggtgatgaatggcaggc 7927
     
    
    Аннотация
    ID   AE008781; SV 1; linear; genomic DNA; STD; PRO; 21540 BP.
    XX
    AC   AE008781; AE006468;
    XX
    DT   29-OCT-2001 (Rel. 69, Created)
    DT   12-AUG-2005 (Rel. 84, Last updated, Version 5)
    XX
    DE   Salmonella typhimurium LT2, section 85 of 220 of the complete genome.
    XX
    KW   .
    XX
    OS   Salmonella typhimurium LT2
    OC   Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales;
    OC   Enterobacteriaceae; Salmonella
    FT   source          1..21540
    FT                   /organism="Salmonella typhimurium LT2"
    FT                   /strain="LT2; SGSC 1412; ATCC 700720"
    FT                   /mol_type="genomic DNA"
    FT                   /note="LT2"
    FT                   /db_xref="taxon:99287" .
    FT   gene            7227..8603
    FT                   /gene="pabB"
    FT                   /note="synonym: STM1824"
    FT   RBS             7227..7232
    FT                   /gene="pabB"
    FT                   /note="putative RBS for pabB; RegulonDB:STMS1H001997"
    FT   CDS             7239..8603
    FT                   /codon_start=1
    FT                   /transl_table=11
    FT                   /gene="pabB"
    FT                   /product="p-aminobenzoate synthetase, component I"
    FT                   /EC_number="4.1.3.-"
    FT                   /note="para-aminobenzoate synthase component I.
    FT                   (SW:PABB_SALTY)"
    FT                   /db_xref="GOA:P12680"
    FT                   /db_xref="InterPro:IPR005801"
    FT                   /db_xref="InterPro:IPR005802"
    FT                   /db_xref="InterPro:IPR006805"
    FT                   /db_xref="UniProtKB/Swiss-Prot:P12680"
    FT                   /protein_id="AAL20739.1"
    FT                   /translation="MMKTLSPTVITLPWRPDAAEHYFAPVNHLPWAMLLHSGDAIHPYN
    FT                   RFDILVADPVTTLTTRAQETTVCTARTTTVTLDDPLHVLQTQLEALPFHPQPDPDLPFQ
    FT                   GGALGLFGYDLGRRFEILPDTAARDIALPDMAIGLYDWALIVDHQKQVVSLISYHDADA
    FT                   RYRWLTSQRAPTRTPFRLTSAWQSNMTRCEYGEKFRQVQAWLHSGDCYQVNLSQRFQAS
    FT                   YEGDEWQAFERLNRANRAPFSAFLRLHDGAILSLSPERFIQLENGHIQTRPIKGTLPRL
    FT                   NDPQADRQQAQKLANSMKDRAENLMIVDLMRNDIGRVAVPGSVKVPELFVVEPFPAVHH
    FT                   LVSTITARLPDSLHATDLLRAAFPGGSITGAPKVRAMEIIDELEPQRRNAWCGSIGYLS
    FT                   FCGKMDTSITIRTVTATQGQLYCSAGGGIVADSNEEAEYQETFDKVNRILHPLEN"  
    

Выводы

Лучшая находка осталась прежней, но ее E-value возрос. Возможно, это можно объяснить тем, что по сравнению с белком, длина исследуемой нуклеотидной последовательности больше в три раза. Возможно, также вносит свое влияние вырожденность генетического кода - нуклеотиды будут разными, а аминокислоты одинаковыми. Однако, можно также заметить, что E-value других находок возрос. С учетом того, что процент идентичности с исходным белком очень маленький, можно сказать, что BLASTN избирателен и выбирает лишь достаточно близкие гомологи. На главную страницу >>>


© Гурьянова Наталья Николаевна