Страница курса биоинформатики
Факультет биоинженерии и биоинформатики

Программы пакета BLAST для работы с нуклеотидными последовательностями

  • Создание индексных файлов для программ пакета BLAST
  • Pasteurella multocida

    С помощью команды:

    formatdb -i pm_genome.fasta -p F -n pm

    были созданы индексные файлы; получено: pm.nhr, pm.nin, pm.nsq

  • Поиск в геноме участков, кодирующих белки, похожие на заданный

  • Зная аминокислотную последовательность MODE_ECOLI (данный мне белок), нужно определить не закодированы ли похожие белки в неаннотированном геноме другого организма.
    Сначала проводим поиск по одному геному Pasteurella multocida.
    Поиск гомологов MODE_ECOLI Геном Pasteurella multocida
    Число находок с Е-value<0,001 1
    Характеристика лучшей находки: AE006112 Pasteurella multocida subsp. multocida str. Pm70 section 79 of 204 of the complete genome. Length = 10166 Score = 179 bits (453), Expect = 2e-46 Identities = 109/265 (41%), Positives = 160/265 (60%), Gaps = 4/265 (1%) Frame = +1
       E-value находки 2e-46
      AC соответствующей записи EMBL AE006112
      координаты выравнивания в записи EMBL 6040...6819
      Координаты CDS в записи EMBL 6034..6825
      AC UniProt в записи EMBL Q9CMR6
    По 3 геномам сразу: X. campestris, P. multocida, S. typhimurium
    Число находок с Е-value<0,001 2
       E-value находки AE006112 9e-46
    >embl|AE006112|AE006112 Pasteurella multocida subsp. multocida str.
                Pm70 section 79 of 204 of the complete genome.
              Length = 10166
    
     Score =  179 bits (453), Expect = 2e-46
     Identities = 109/265 (41%), Positives = 160/265 (60%), Gaps = 4/265 (1%)
     Frame = +1
    
    Query: 1    MQAEILLTLKLQQKLFADPRRISLLKHIALSGSISQGAKDAGISYKSAWDAINEMNQLSE 60
                + +EILLT+KLQQ+LF DP+RI LLK I   GSI+Q AK+A +SYKSAWD +  MN++S 
    Sbjct: 6040 LTSEILLTIKLQQQLFVDPKRIRLLKEIQKCGSINQAAKNAKVSYKSAWDHLAAMNEISP 6219
    
    Query: 61   HILVERATXXXXXXXAVLTRYGQRLIQLYDLLAQIQQKAFDVLSDDDALPLNSLLAAISR 120
                  L+ER           LT Y QRL+QLYDLL   QQKAF +L D++ LPL+S+L A +R
    Sbjct: 6220 KPLLERNVGGKNGGGTELTVYAQRLLQLYDLLEHTQQKAFHILQDEN-LPLDSVLHATAR 6396
    
    Query: 121  FSLQTSARNQWFGTITARXXXXXXXXXXXLLADGKTRLKVAITAQSGARLGLDEGKEVLI 180
                FSLQ+SARNQ+FG I A             +      L V+IT +S  RL L  GKEV++
    Sbjct: 6397 FSLQSSARNQFFGDIVALRHENIHCFVAIQIKGLAQPLTVSITEKSAQRLKLTLGKEVMM 6576
    
    Query: 181  LLKAPWVGITQDEAVAQNADNQLPGIISHIERGAEQCEVLMAL----PDGQTLCATVPVN 236
                ++KAPWV + +++   +  +  L  +    ++G  +  +L ++     +    CAT  +N
    Sbjct: 6577 MIKAPWVKVHREK--PEGVNTFLVNVKEITDKGDVEEVILTSINKHADEDMEFCAT--LN 6744
    
    Query: 237  EATSLQQGQNVTAYFNADSVIIATL 261
                +A +L+  + +    + + VI+ATL
    Sbjct: 6745 KAENLKPDEQIWISIDPEQVILATL 6819 

    С помощью команды tblastn я искала гомологи белка mode_ecoli в геноме Pasteurella multocida.Из двух находок е-value < 0,001 только у одной: AE006112 (2e-46) - достаточно хорошее значени e-value (маленькое, а это значит что последовательности достаточно схожи). Найденный гомолог, исходя из аннотаций, очень близок исходному белку. Более того, гомолог уже предсказанный (Protein existence 4: Predicted). Вторая находка имеет плохое значение e-value - очень большое, 9,8. Это значит, что последовательности, выровненные с такими результатами, нельзя назвать достаточно схожими.

  • Аналогичный поиск сразу в нескольких геномах

  • При помощи программы tblastn проводился поиск сразу по 3 геномам. Изменилась лучшая находка.
    Находок с е-value < 0.001 - две.
    E-value лучшей находки: e-118.
    AE008732 AE006468 |AE008732| Salmonella typhimurium LT2, section 40
                of 220 of the complete genome.
              Length = 22407
    
     Score =  418 bits (1075), Expect = e-118
     Identities = 218/262 (83%), Positives = 233/262 (88%)
     Frame = -3
    
    Query: 1    MQAEILLTLKLQQKLFADPRRISLLKHIALSGSISQGAKDAGISYKSAWDAINEMNQLSE 60
                MQAEILLTLKLQQKLFADPRRISLLKHIALSGSISQGAKDAGISYKSAWDAIN+MNQLSE
    Sbjct: 3547 MQAEILLTLKLQQKLFADPRRISLLKHIALSGSISQGAKDAGISYKSAWDAINDMNQLSE 3368
    
    Query: 61   HILVERATXXXXXXXAVLTRYGQRLIQLYDLLAQIQQKAFDVLSDDDALPLNSLLAAISR 120
                H+LVERAT       AVLTRYGQRLIQLYDLL QIQQKAFDVLSDDDALPL+SLLAAISR
    Sbjct: 3367 HMLVERATGGKGGGGAVLTRYGQRLIQLYDLLGQIQQKAFDVLSDDDALPLDSLLAAISR 3188
    
    Query: 121  FSLQTSARNQWFGTITARXXXXXXXXXXXLLADGKTRLKVAITAQSGARLGLDEGKEVLI 180
                FSLQTSARNQWFGTITAR           LLADGKTRLKVA+TAQSG RLGL+EGKEVLI
    Sbjct: 3187 FSLQTSARNQWFGTITARDRDLVQQHVDVLLADGKTRLKVALTAQSGERLGLEEGKEVLI 3008
    
    Query: 181  LLKAPWVGITQDEAVAQNADNQLPGIISHIERGAEQCEVLMALPDGQTLCATVPVNEATS 240
                LLKAPWVGIT+D AVA+ ADNQL G ISHIERGAEQCEVLMALPDGQTLCAT+P ++A +
    Sbjct: 3007 LLKAPWVGITRDAAVARAADNQLSGTISHIERGAEQCEVLMALPDGQTLCATIPTSDAAT 2828
    
    Query: 241  LQQGQNVTAYFNADSVIIATLC 262
                L++G +V A+FNAD VIIATLC
    Sbjct: 2827 LKEGDDVIAWFNADRVIIATLC 2762
    
    

    При поиске по 3 геномам расширяется диапазон поиска (примерно в 4 раза).
    Увеличилось и е-value лучшей находки по Pasteurella multocida: с 2е-46 до 9е-46.

  • Поиск гомологов с помощью программы BLASTN
  • E-value лучшей находки: 1e-97

    Соответствующее выравнивание

    AE008732 AE006468 |AE008732| Salmonella typhimurium LT2, section 40
                of 220 of the complete genome.
              Length = 22407
    
     Score =  355 bits (179), Expect = 1e-97
     Identities = 566/695 (81%)
     Strand = Plus / Minus
    
                                                                            
    Query: 1    atgcaggccgaaatccttctcacccttaagctccaacaaaaattattcgccgacccgcgc 60
                |||||||||||||||||||| ||||| || || || |||||  | || ||||| || || 
    Sbjct: 3547 atgcaggccgaaatccttcttaccctgaaacttcagcaaaagctttttgccgatccccga 3488
    
                                                                            
    Query: 61   cgcatttcgctactaaaacacattgcgctttccggttccattagccagggagcgaaagat 120
                || || || || || |||||||||||||||||||| || ||||| ||||| |||||||| 
    Sbjct: 3487 cgtatctctctgctgaaacacattgcgctttccggctcgattagtcagggcgcgaaagac 3428
    
                                                                            
    Query: 121  gccggtattagctataaaagcgcctgggatgccattaacgagatgaatcagttaagtgag 180
                || || || |||||||| |||||||||||||| || ||||| ||||| ||| | || || 
    Sbjct: 3427 gcgggaatcagctataagagcgcctgggatgcgataaacgacatgaaccagcttagcgaa 3368
    
                                                                            
    Query: 181  catattctggtcgagcgcgcaacaggcggtaaaggtggcggcggcgcagtactgacccgc 240
                ||||| ||||| || |||||||| ||||| ||||| ||||||||||| ||| | ||||||
    Sbjct: 3367 catatgctggttgaacgcgcaacgggcggcaaaggcggcggcggcgcggtattaacccgc 3308
    
                                                                            
    Query: 241  tatggtcagcgactgattcagctctatgacttactggcgcaaatccagcaaaaagccttt 300
                ||||| ||||| ||||| ||||| || || || ||||  ||||| ||||||||||| || 
    Sbjct: 3307 tatggccagcgtctgatccagctttacgatttgctgggccaaattcagcaaaaagcgttc 3248
    
                                                                            
    Query: 301  gatgtgttaagtgacgatgacgccctgccgctgaacagcctgctggccgcgatctcacgt 360
                ||||||||||| ||||||||||||||||||||  |||| ||||||||||| ||||| || 
    Sbjct: 3247 gatgtgttaagcgacgatgacgccctgccgcttgacagtctgctggccgctatctcccgc 3188
    
                                                                            
    Query: 361  ttttcactgcaaaccagcgcccgtaaccagtggttcggtaccatcaccgcccgcgatcat 420
                ||||||||||||||||||||||| || ||||||||||| ||||| |||||||||||||  
    Sbjct: 3187 ttttcactgcaaaccagcgcccgaaatcagtggttcggcaccattaccgcccgcgatcgc 3128
    
                                                                            
    Query: 421  gatgacgttcaacagcatgttgatgtcttactggctgacggaaaaacacgcctgaaagtc 480
                |||   || ||||||||||| || ||  | ||||| ||||| ||||| || || ||||||
    Sbjct: 3127 gatctggtgcaacagcatgtcgacgtgctgctggccgacggcaaaacgcggctcaaagtc 3068
    
                                                                            
    Query: 481  gcaattaccgcacaaagcggcgcgcgtctggggctggatgaaggcaaagaagtgttgata 540
                ||  | || || |||||||||| |||||| || ||||| || || ||||||||| |||| 
    Sbjct: 3067 gcgctgacggcgcaaagcggcgagcgtctcggcctggaggagggaaaagaagtgctgatc 3008
    
                                                                            
    Query: 541  ttgctaaaagcgccgtgggtaggtattactcaggacgaggcggtcgcgcaaaacgctgac 600
                 ||||||||||||||||||| || ||||| | ||| |  || || ||||    |||||||
    Sbjct: 3007 ctgctaaaagcgccgtgggttggcattacccgggatgcagccgttgcgcgcgccgctgac 2948
    
                                                                            
    Query: 601  aaccaattaccgggtattattagtcatattgagcgcggcgcagagcagtgcgaagtatta 660
                || || ||  |||| |  || || ||||| ||||||||||| || ||||| ||||| || 
    Sbjct: 2947 aatcagttgtcgggaacgatcagccatatcgagcgcggcgcggaacagtgtgaagtgttg 2888
    
                                                   
    Query: 661  atggcgctacccgacgggcaaacactgtgcgccac 695
                |||||||| || ||||| || || |||||||||||
    Sbjct: 2887 atggcgctgccggacggccagacgctgtgcgccac 2853
    

    Аннотация соответствующего фрагмента генома

    FT   gene            complement(793079..793867)
    FT                   /gene="modE"
    FT                   /locus_tag="b0761"
    FT                   /note="synonyms: chlD, modR, narD, ECK0750, JW0744"
    FT   CDS             complement(793079..793867)
    FT                   /codon_start=1
    FT                   /transl_table=11
    FT                   /gene="modE"
    FT                   /locus_tag="b0761"
    FT                   /product="DNA-binding transcriptional dual regulator"
    FT                   /function="regulator; Transport of small molecules: Anions"
    FT                   /note="molybdate uptake regulatory protein"
    FT                   /db_xref="GOA:P0A9G8"
    FT                   /db_xref="InterPro:IPR000847"
    FT                   /db_xref="InterPro:IPR003725"
    FT                   /db_xref="InterPro:IPR004606"
    FT                   /db_xref="InterPro:IPR005116"
    FT                   /db_xref="InterPro:IPR008995"
    FT                   /db_xref="InterPro:IPR011991"
    FT                   /db_xref="UniProtKB/Swiss-Prot:P0A9G8"
    FT                   /protein_id="AAC73848.1"
    FT                   /translation="MQAEILLTLKLQQKLFADPRRISLLKHIALSGSISQGAKDAGISY
    FT                   KSAWDAINEMNQLSEHILVERATGGKGGGGAVLTRYGQRLIQLYDLLAQIQQKAFDVLS
    FT                   DDDALPLNSLLAAISRFSLQTSARNQWFGTITARDHDDVQQHVDVLLADGKTRLKVAIT
    FT                   AQSGARLGLDEGKEVLILLKAPWVGITQDEAVAQNADNQLPGIISHIERGAEQCEVLMA
    FT                   LPDGQTLCATVPVNEATSLQQGQNVTAYFNADSVIIATLC"

    Blastn больше подходит для поиска близких гомологов, с помощью tblastn можно искать гомологи любой степени гомологии. Исходя из этого, можно решать какой программой лучше пользоваться в том или ином случае. В моем случае blastn дает хорошие результаты, но это происходит потому, что последовательности очень близкие (находит последовательности очень похожие на исходную).

    Переход на главную страницу

    © Суворова Анастасия