Занятие 3. Программы пакета BLAST для работы с нуклеотидными последовательностями

      1.Создание индексных файлов для программ пакета BLAST

      Заданный геном: pm_genome.fasta — полный геном бактерии Pasteurella multocida.


      Команда для получения индексных файлов «formatdb –i pm_genome.fasta –p F –n pm»

      2.Поиск в геноме участков, кодирующих белки, похожие на заданный

      Команда для получения фйла RPOA «blastall –p tblastn –d pm –i rpoa_ecoli.fasta –o RPOA –e 0.001»
      Поиск гомологов RPOA_ECOLI Геном Pasteurella multocida
      Число находок с Е-value<0,001 1
      Характеристика лучшей находки: AE006177 Pasteurella multocida subsp. multocida str. Pm70 section 144 of 204 of the complete genome. Length = 14087 Score = 607 bits (1564), Expect = e-175 Identities = 303/329 (92%), Positives = 322/329 (97%) Frame = -1
         E-value находки e-175
        AC соответствующей записи EMBL AE006177
        координаты выравнивания в записи EMBL 1580...594
        Координаты CDS в записи EMBL complement(591..1580)
        AC UniProt в записи EMBL P57941
      Белок из генома Pasteurella multocida является достаточно близким гомологом белка RPOA_ECOLI, т.к. совпадение составляет 92% и e-value e-175.
      
      AE006177 Pasteurella multocida subsp. multocida str.
                  Pm70 section 144 of 204 of the complete genome.
                Length = 14087
      
       Score =  607 bits (1564), Expect = e-175
       Identities = 303/329 (92%), Positives = 322/329 (97%)
       Frame = -1
      
      Query: 1    MQGSVTEFLKPRLVDIEQVSSTHAKVTLEPLERGFGHTLGNALRRILLSSMPGCAVTEVE 60
                  MQGSVTEFLKPRLVDIEQ+SSTHAKV LEPLERGFGHTLGNALRRILLSSMPGCAVTEVE
      Sbjct: 1580 MQGSVTEFLKPRLVDIEQISSTHAKVILEPLERGFGHTLGNALRRILLSSMPGCAVTEVE 1401
      
      Query: 61   IDGVLHEYSTKEGVQEDILEILLNLKGLAVRVQGKDEVILTLNKSGIGPVTAADITHDGD 120
                  IDGVLHEYS+KEGVQEDILE+LLNLKGLAV+VQ KD+V LTLNKSGIGPV AADITHDGD
      Sbjct: 1400 IDGVLHEYSSKEGVQEDILEVLLNLKGLAVKVQNKDDVFLTLNKSGIGPVVAADITHDGD 1221
      
      Query: 121  VEIVKPQHVICHLTDENASISMRIKVQRGRGYVPASTRIHSEEDERPIGRLLVDACYSPV 180
                  VEIV P+HVICHLTDE+ASI+MRI+VQRGRGYVPAS R+H++++ERPIGRLLVDACYSPV
      Sbjct: 1220 VEIVNPEHVICHLTDESASINMRIRVQRGRGYVPASARVHAQDEERPIGRLLVDACYSPV 1041
      
      Query: 181  ERIAYNVEAARVEQRTDLDKLVIEMETNGTIDPEEAIRRAATILAEQLEAFVDLRDVRQP 240
                  +RIAYNVEAARVEQRTDLDKLVIE+ETNGTIDPEEAIRRAATILAEQL+AFVDLRDVRQP
      Sbjct: 1040 DRIAYNVEAARVEQRTDLDKLVIELETNGTIDPEEAIRRAATILAEQLDAFVDLRDVRQP 861
      
      Query: 241  EVKEEKPEFDPILLRPVDDLELTVRSANCLKAEAIHYIGDLVQRTEVELLKTPNLGKKSL 300
                  EVKEEKPEFDPILLRPVDDLELTVRSANCLKAE IHYIGDLVQRTEVELLKTPNLGKKSL
      Sbjct: 860  EVKEEKPEFDPILLRPVDDLELTVRSANCLKAETIHYIGDLVQRTEVELLKTPNLGKKSL 681
      
      Query: 301  TEIKDVLASRGLSLGMRLENWPPASIADE 329
                  TEIKDVLASRGLSLGMRLENWPPASIA++
      Sbjct: 680  TEIKDVLASRGLSLGMRLENWPPASIAED 594
      
      
      

      Аннотация Pasteurella multocida

      ID   AE006177; SV 1; linear; genomic DNA; STD; PRO; 14087 BP.
      XX
      AC   AE006177; AE004439;
      XX
      DT   10-FEB-2001 (Rel. 66, Created)
      DT   14-APR-2005 (Rel. 83, Last updated, Version 5)
      XX
      DE   Pasteurella multocida subsp. multocida str. Pm70 section 144 of 204 of the
      DE   complete genome.
      XX
      KW   .
      FH   Key             Location/Qualifiers
      FH
      FT   source          1..14087
      FT                   /organism="Pasteurella multocida subsp. multocida str.
      FT                   Pm70"
      FT                   /sub_species="multocida"
      FT                   /strain="PM70"
      FT                   /mol_type="genomic DNA"
      FT                   /db_xref="taxon:272843"
      FT   gene            complement(591..1580)
      FT                   /gene="rpoA"
      FT                   /note="synonym: PM1390"
      FT   CDS             complement(591..1580)
      FT                   /codon_start=1
      FT                   /transl_table=11
      FT                   /gene="rpoA"
      FT                   /product="RpoA"
      FT                   /db_xref="GOA:P57941"
      FT                   /db_xref="InterPro:IPR011260"
      FT                   /db_xref="InterPro:IPR011261"
      FT                   /db_xref="InterPro:IPR011262"
      FT                   /db_xref="InterPro:IPR011263"
      FT                   /db_xref="InterPro:IPR011773"
      FT                   /db_xref="UniProtKB/Swiss-Prot:P57941"
      FT                   /protein_id="AAK03474.1"
      FT                   /translation="MQGSVTEFLKPRLVDIEQISSTHAKVILEPLERGFGHTLGNALRR
      FT                   ILLSSMPGCAVTEVEIDGVLHEYSSKEGVQEDILEVLLNLKGLAVKVQNKDDVFLTLNK
      FT                   SGIGPVVAADITHDGDVEIVNPEHVICHLTDESASINMRIRVQRGRGYVPASARVHAQD
      FT                   EERPIGRLLVDACYSPVDRIAYNVEAARVEQRTDLDKLVIELETNGTIDPEEAIRRAAT
      FT                   ILAEQLDAFVDLRDVRQPEVKEEKPEFDPILLRPVDDLELTVRSANCLKAETIHYIGDL
      FT                   VQRTEVELLKTPNLGKKSLTEIKDVLASRGLSLGMRLENWPPASIAED"
      
      
      

      3.Поиск сразу в нескольких геномах.

      blastall -p tblastn -e 10 -d all -i rpoa_ecoli.fasta -o RPOA2
      
      
      Поиск гомологов RpoA_ECOLI Геном Pasteurella multocida Геном Salmonella typhimurium Геном Xanthomonas campestris
      Число находок с Е-value<0,001 1 1 1
      Характеристика лучшей находки:      
         E-value находки e-174 0.0 e-117
        AC соответствующей записи EMBL AE006177 AE008857 AE012190
        координаты выравнивания в записи EMBL 1580...594 14132...13146 1652...2629
        Координаты CDS в записи EMBL complement(591..1580) complement(13143..14132) 1652..2650
        AC UniProt в записи EMBL P57941 P0A7Z7 P0A0Y1

      В результате поиска лучшей находкой можно назвать белок гомологичный исходному RPOA в геноме Salmonella typhimurium, т.к. E-value находки равно 0.0, а Identities = 100%. Изменение E-value у гомологов из Pasteurella multocida связано с тем, что увеличилось количество последовательностей в базе данных в которой происходил поиск.

      Результаты поиска:
      
      >AE008857 AE006468 |AE008857| Salmonella typhimurium LT2, section 161 of
                   220 of the complete genome.
                Length = 21370
      
       Score =  642 bits (1655), Expect = 0.0
       Identities = 329/329 (100%), Positives = 329/329 (100%)
       Frame = -3
      
      Query: 1     MQGSVTEFLKPRLVDIEQVSSTHAKVTLEPLERGFGHTLGNALRRILLSSMPGCAVTEVE 60
                   MQGSVTEFLKPRLVDIEQVSSTHAKVTLEPLERGFGHTLGNALRRILLSSMPGCAVTEVE
      Sbjct: 14132 MQGSVTEFLKPRLVDIEQVSSTHAKVTLEPLERGFGHTLGNALRRILLSSMPGCAVTEVE 13953
      
      Query: 61    IDGVLHEYSTKEGVQEDILEILLNLKGLAVRVQGKDEVILTLNKSGIGPVTAADITHDGD 120
                   IDGVLHEYSTKEGVQEDILEILLNLKGLAVRVQGKDEVILTLNKSGIGPVTAADITHDGD
      Sbjct: 13952 IDGVLHEYSTKEGVQEDILEILLNLKGLAVRVQGKDEVILTLNKSGIGPVTAADITHDGD 13773
      
      Query: 121   VEIVKPQHVICHLTDENASISMRIKVQRGRGYVPASTRIHSEEDERPIGRLLVDACYSPV 180
                   VEIVKPQHVICHLTDENASISMRIKVQRGRGYVPASTRIHSEEDERPIGRLLVDACYSPV
      Sbjct: 13772 VEIVKPQHVICHLTDENASISMRIKVQRGRGYVPASTRIHSEEDERPIGRLLVDACYSPV 13593
      
      Query: 181   ERIAYNVEAARVEQRTDLDKLVIEMETNGTIDPEEAIRRAATILAEQLEAFVDLRDVRQP 240
                   ERIAYNVEAARVEQRTDLDKLVIEMETNGTIDPEEAIRRAATILAEQLEAFVDLRDVRQP
      Sbjct: 13592 ERIAYNVEAARVEQRTDLDKLVIEMETNGTIDPEEAIRRAATILAEQLEAFVDLRDVRQP 13413
      
      Query: 241   EVKEEKPEFDPILLRPVDDLELTVRSANCLKAEAIHYIGDLVQRTEVELLKTPNLGKKSL 300
                   EVKEEKPEFDPILLRPVDDLELTVRSANCLKAEAIHYIGDLVQRTEVELLKTPNLGKKSL
      Sbjct: 13412 EVKEEKPEFDPILLRPVDDLELTVRSANCLKAEAIHYIGDLVQRTEVELLKTPNLGKKSL 13233
      
      Query: 301   TEIKDVLASRGLSLGMRLENWPPASIADE 329
                   TEIKDVLASRGLSLGMRLENWPPASIADE
      Sbjct: 13232 TEIKDVLASRGLSLGMRLENWPPASIADE 13146
      
      
      >embl|AE006177|AE006177 Pasteurella multocida subsp. multocida str.
                  Pm70 section 144 of 204 of the complete genome.
                Length = 14087
      
       Score =  607 bits (1564), Expect = e-174
       Identities = 303/329 (92%), Positives = 322/329 (97%)
       Frame = -1
      
      Query: 1    MQGSVTEFLKPRLVDIEQVSSTHAKVTLEPLERGFGHTLGNALRRILLSSMPGCAVTEVE 60
                  MQGSVTEFLKPRLVDIEQ+SSTHAKV LEPLERGFGHTLGNALRRILLSSMPGCAVTEVE
      Sbjct: 1580 MQGSVTEFLKPRLVDIEQISSTHAKVILEPLERGFGHTLGNALRRILLSSMPGCAVTEVE 1401
      
      Query: 61   IDGVLHEYSTKEGVQEDILEILLNLKGLAVRVQGKDEVILTLNKSGIGPVTAADITHDGD 120
                  IDGVLHEYS+KEGVQEDILE+LLNLKGLAV+VQ KD+V LTLNKSGIGPV AADITHDGD
      Sbjct: 1400 IDGVLHEYSSKEGVQEDILEVLLNLKGLAVKVQNKDDVFLTLNKSGIGPVVAADITHDGD 1221
      
      Query: 121  VEIVKPQHVICHLTDENASISMRIKVQRGRGYVPASTRIHSEEDERPIGRLLVDACYSPV 180
                  VEIV P+HVICHLTDE+ASI+MRI+VQRGRGYVPAS R+H++++ERPIGRLLVDACYSPV
      Sbjct: 1220 VEIVNPEHVICHLTDESASINMRIRVQRGRGYVPASARVHAQDEERPIGRLLVDACYSPV 1041
      
      Query: 181  ERIAYNVEAARVEQRTDLDKLVIEMETNGTIDPEEAIRRAATILAEQLEAFVDLRDVRQP 240
                  +RIAYNVEAARVEQRTDLDKLVIE+ETNGTIDPEEAIRRAATILAEQL+AFVDLRDVRQP
      Sbjct: 1040 DRIAYNVEAARVEQRTDLDKLVIELETNGTIDPEEAIRRAATILAEQLDAFVDLRDVRQP 861
      
      Query: 241  EVKEEKPEFDPILLRPVDDLELTVRSANCLKAEAIHYIGDLVQRTEVELLKTPNLGKKSL 300
                  EVKEEKPEFDPILLRPVDDLELTVRSANCLKAE IHYIGDLVQRTEVELLKTPNLGKKSL
      Sbjct: 860  EVKEEKPEFDPILLRPVDDLELTVRSANCLKAETIHYIGDLVQRTEVELLKTPNLGKKSL 681
      
      Query: 301  TEIKDVLASRGLSLGMRLENWPPASIADE 329
                  TEIKDVLASRGLSLGMRLENWPPASIA++
      Sbjct: 680  TEIKDVLASRGLSLGMRLENWPPASIAED 594
      
      
      >AE012190 AE008922 |AE012190| Xanthomonas campestris pv. campestris
                  str. ATCC 33913,  section 98 of 460 of the complete
                  genome.
                Length = 11410
      
       Score =  417 bits (1072), Expect = e-117
       Identities = 209/327 (63%), Positives = 261/327 (79%)
       Frame = +2
      
      Query: 1    MQGSVTEFLKPRLVDIEQVSSTHAKVTLEPLERGFGHTLGNALRRILLSSMPGCAVTEVE 60
                  M  +  + L+PR   IE+++   AKV +EPLERG+GHTLGNALRR+LLSS+PG A+TEVE
      Sbjct: 1652 MTVTANQVLRPRGPQIERLTDNRAKVVIEPLERGYGHTLGNALRRVLLSSIPGFAITEVE 1831
      
      Query: 61   IDGVLHEYSTKEGVQEDILEILLNLKGLAVRVQGKDEVILTLNKSGIGPVTAADITHDGD 120
                  IDGVLHEY+T EG+QED+L++LLNLK +A+R+   D   L+L+K G G VTAADI  D +
      Sbjct: 1832 IDGVLHEYTTVEGLQEDVLDVLLNLKDVAIRMHSGDSATLSLSKQGPGTVTAADIRTDHN 2011
      
      Query: 121  VEIVKPQHVICHLTDENASISMRIKVQRGRGYVPASTRIHSEEDERPIGRLLVDACYSPV 180
                  VEI+   HVICHLT + A ++MR+K++RG GY PA+ R   +E+ R IGRL++DA +SPV
      Sbjct: 2012 VEIINGDHVICHLTKDTA-LNMRLKIERGFGYQPAAARRRPDEETRTIGRLMLDASFSPV 2188
      
      Query: 181  ERIAYNVEAARVEQRTDLDKLVIEMETNGTIDPEEAIRRAATILAEQLEAFVDLRDVRQP 240
                   R+AY VEAARVEQRTDLDKLVI++ETNGTID EEA+R AA IL++QL  F D     + 
      Sbjct: 2189 RRVAYAVEAARVEQRTDLDKLVIDIETNGTIDAEEAVRTAADILSDQLSVFGDFTHRDRG 2368
      
      Query: 241  EVKEEKPEFDPILLRPVDDLELTVRSANCLKAEAIHYIGDLVQRTEVELLKTPNLGKKSL 300
                    K      DP+LLRP+DDLELTVRSANCLKAE+I+YIGDL+Q+TEVELLKTPNLGKKSL
      Sbjct: 2369 AAKPAASGVDPVLLRPIDDLELTVRSANCLKAESIYYIGDLIQKTEVELLKTPNLGKKSL 2548
      
      Query: 301  TEIKDVLASRGLSLGMRLENWPPASIA 327
                  TEIK+VLA RGL+LGM+LENWPPA +A
      Sbjct: 2549 TEIKEVLAQRGLALGMKLENWPPAGVA 2629
      
      

      4.Поиск гомологов с помощью программы BLASTN

      Команда для получения файла allx «blastall –p blastn –d all –i rpoa_gene.fasta –o allx –e 0.001»
      Лучшая находка - AE008857 из Salmonella typhimurium LT2. E-value - 0.0 осталась прежней, а совпадения состовляют 97% уменьшилось (из-за изменения базы данных поиска и принципа работы программы).
      Выравнивание
      >AE008857 AE006468 |AE008857| Salmonella typhimurium LT2, section 161 of
                   220 of the complete genome.
                Length = 21370
      
       Score = 1772 bits (894), Expect = 0.0
       Identities = 966/990 (97%)
       Strand = Plus / Minus
      
                                                                               
      Query: 1     atgcagggttctgtgacagagtttctaaaaccgcgcctggttgatatcgagcaagtgagt 60
                   ||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||
      Sbjct: 14132 atgcagggttctgtgacagagtttctaaaaccgcgcctggtagatatcgagcaagtgagt 14073
      
                                                                               
      Query: 61    tcgacgcacgccaaggtgacccttgagcctttagagcgtggctttggccatactctgggt 120
                   |||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||
      Sbjct: 14072 tcgacgcacgccaaggtgacccttgagcctttagagcgtggcttcggccatactctgggt 14013
      
                                                                               
      Query: 121   aacgcactgcgccgtattctgctctcatcgatgccgggttgcgcggtgaccgaggttgag 180
                   ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
      Sbjct: 14012 aacgcactgcgccgtattctgctctcatcgatgccgggttgcgcggtgaccgaggttgag 13953
      
                                                                               
      Query: 181   attgatggtgtactacatgagtacagcaccaaagaaggcgttcaggaagatatcctggaa 240
                   |||||||||||||||||||||||||||||||||||||||||||||||||| |||||||||
      Sbjct: 13952 attgatggtgtactacatgagtacagcaccaaagaaggcgttcaggaagacatcctggaa 13893
      
                                                                               
      Query: 241   atcctgctcaacctgaaagggctggcggtgagagttcagggcaaagatgaagttattctt 300
                   ||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||
      Sbjct: 13892 atcctgctcaacctgaaagggctggcggtgagagttcagggtaaagatgaagttattctt 13833
      
                                                                               
      Query: 301   accttgaataaatctggcattggccctgtgactgcagccgatatcacccacgacggtgat 360
                   |||||||||||||||||||||||||||||||||||||||||||||||||| || || |||
      Sbjct: 13832 accttgaataaatctggcattggccctgtgactgcagccgatatcacccatgatggggat 13773
      
                                                                               
      Query: 361   gtcgaaatcgtcaagccgcagcacgtgatctgccacctgaccgatgagaacgcgtctatt 420
                   ||||||||||||||||||||||||||||||||||||||||||||||| ||||||||||||
      Sbjct: 13772 gtcgaaatcgtcaagccgcagcacgtgatctgccacctgaccgatgaaaacgcgtctatt 13713
      
                                                                               
      Query: 421   agcatgcgtatcaaagttcagcgcggtcgtggttatgtgccggcttctacccgaattcat 480
                   || |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
      Sbjct: 13712 agtatgcgtatcaaagttcagcgcggtcgtggttatgtgccggcttctacccgaattcat 13653
      
                                                                               
      Query: 481   tcggaagaagatgagcgcccaatcggccgtctgctggtcgacgcatgctacagccctgtg 540
                   |||||||||||||||||||||||||||||||||||||||||||| |||||||||||||| 
      Sbjct: 13652 tcggaagaagatgagcgcccaatcggccgtctgctggtcgacgcctgctacagccctgta 13593
      
                                                                               
      Query: 541   gagcgtattgcctacaatgttgaagcagcgcgtgtagaacagcgtaccgacctggacaag 600
                   ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
      Sbjct: 13592 gagcgtattgcctacaatgttgaagcagcgcgtgtagaacagcgtaccgacctggacaag 13533
      
                                                                               
      Query: 601   ctggtcatcgaaatggaaaccaacggcacaatcgatcctgaagaggcgattcgtcgtgcg 660
                   ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
      Sbjct: 13532 ctggtcatcgaaatggaaaccaacggcacaatcgatcctgaagaggcgattcgtcgtgcg 13473
      
                                                                               
      Query: 661   gcaaccattctggctgaacaactggaagctttcgttgacttacgtgatgtacgtcagcct 720
                   |||||||| ||||||||||||||||||||||||||||| ||||||||||||||||| || 
      Sbjct: 13472 gcaaccatcctggctgaacaactggaagctttcgttgatttacgtgatgtacgtcaaccg 13413
      
                                                                               
      Query: 721   gaagtgaaagaagagaaaccagagttcgatccgatcctgctgcgccctgttgacgatctg 780
                   ||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||
      Sbjct: 13412 gaagtgaaagaagagaaaccagaattcgatccgatcctgctgcgccctgttgacgatctg 13353
      
                                                                               
      Query: 781   gaattgactgtccgctctgctaactgccttaaagcagaagctatccactatatcggtgat 840
                   ||||||||||||||||||||||||||||| || |||||||||||||||||||||||||||
      Sbjct: 13352 gaattgactgtccgctctgctaactgcctcaaggcagaagctatccactatatcggtgat 13293
      
                                                                               
      Query: 841   ctggtacagcgtaccgaggttgagctccttaaaacgcctaaccttggtaaaaaatctctt 900
                   |||||||||||||||||||||||||| ||||| ||||||||| | |||||||||||||||
      Sbjct: 13292 ctggtacagcgtaccgaggttgagcttcttaagacgcctaacttgggtaaaaaatctctt 13233
      
                                                                               
      Query: 901   actgagattaaagacgtgctggcttcccgtggactgtctctgggcatgcgcctggaaaac 960
                   || ||||||||||||||||||||||||||||||||||||||||| |||||||||||||||
      Sbjct: 13232 accgagattaaagacgtgctggcttcccgtggactgtctctgggtatgcgcctggaaaac 13173
      
                                                 
      Query: 961   tggccaccggcaagcatcgctgacgagtaa 990
                   ||||||||||||||||||||||||||||||
      Sbjct: 13172 tggccaccggcaagcatcgctgacgagtaa 13143
      
      
      
      Blastn
      
      
      	

      Выводы

      Лучшая находка из генома Salmonella typhimurium.
      В результате произведенных поисков гомологов из генома Pasteurella multocida можно сделать вывод,
      что белок из этого генома не является близким гомологом белка RPOA_ECOLI (т.к. процент совпадений
      недостаточно высокий и низкое значение e-value).
      Таким образом если нужно найти достаточно близкий гомолог нужно использовать программу Blastn, 
      которая строит нуклеотидные выравнивания. Программа Tblastn строит аминокислотные выравнивания, 
      которая ищеет более отдаленных гомологов.
        
      На главную страницу


      ©Фомичева Анастасия,2006