Blast

Поиск в геноме участков, кодирующих белки, похожие на заданный

Будет осуществляться поиск белка RBGA_BACSU в геноме бактерии - возбудителя листериоза Listeria monocytogenes.

Создаем индексные файлы пакета BLAST для поиска по соответствующему геному: lm.nhr, lm.nin, lm.nsq

Следующей командой запускаем поиск:

blastall -p tblastn -d lm -i rbga.fasta -e 0.001 -o tblastn.out

Выбрана программа tblastn, которая ищет гомологов белка в неаннотированных нуклеотидных последовательностях. На вход этой программе подается аминокислотная последовательность белка RBGA_BACSU
E-value выбрано 0.001
База данных в данном случае геном бактерии Listeria monocytogenes(lm)
Результаты поиска в файле tblastn.out

Лучший результат

 Score =  360 bits (925), Expect = e-115,   Method: Compositional matrix adjust.    
 Identities = 163/280 (58%), Positives = 227/280 (81%)                              
 Frame = +2                                                                         
                                                                                    
Query: 1      MTIQWFPGHMAKARREVTEKLKLIDIVYELVDARIPMSSRNPMIEDILKNKPRIMLLNKA 60       
              MTIQWFPGHMAKARREVTEKLKL+D+++ELVDARIP+SS NPM+E+I+  K R+++LNKA          
Sbjct: 134912 MTIQWFPGHMAKARREVTEKLKLVDVIFELVDARIPLSSSNPMLEEIIHQKRRVIILNKA 135091   
                                                                                    
Query: 61     DKADAAVTQQWKEHFENQGIRSLSINSVNGQGLNQIVPASKEILQEKFDRMRAKGVKPRA 120      
              D AD   T++W ++F  +G+ ++++N+  G+GL +I  A+++++ EKFDR+R+KG+KPRA          
Sbjct: 135092 DTADEKTTKEWIDYFAEKGLPAVAVNAQEGKGLFKIEQAAEKLMAEKFDRLRSKGMKPRA 135271   
                                                                                    
Query: 121    IRALIIGIPNVGKSTLINRLAKKNIAKTGDRPGITTSQQWVKVGKELELLDTPGILWPKF 180      
              IRA+I+GIPNVGKSTLINRLAKKNIA+TG++PG+T +QQW+KVGK LELLDTPGILWPKF          
Sbjct: 135272 IRAMILGIPNVGKSTLINRLAKKNIARTGNKPGVTKAQQWIKVGKTLELLDTPGILWPKF 135451   
                                                                                    
Query: 181    EDELVGLRLAVTGAIKDSIINLQDVAVFGLRFLEEHYPERLKERYGLDEIPEDIAELFDA 240      
              ED+ +G +LA+TGAIKD ++ ++++A +GLRFLE HYP+RL+    ++ + ED  E              
Sbjct: 135452 EDQEIGYKLALTGAIKDDLLQMEEIAGYGLRFLENHYPDRLQTWLKVETVSEDPIETLAF 135631   
                                                                                    
Query: 241    IGEKRGCLMSGGLINYDKTTEVIIRDIRTEKFGRLSFEQP 280                          
              I EKRG L      +Y +  E ++R+IR +K GR+SF+ P                              
Sbjct: 135632 IAEKRGLLDRYNDPDYSRAAETVVREIRQQKLGRMSFDFP 135751 

Таблица с результатами

Поиск гомологов белка RBGA_BACSU в геноме бактерии Listeria monocytogenes
Число находок с Е-value<0,001 4
Характеристика лучшей находки:  
   E-value находки e-115
Название геномной последовательности Listeria monocytogenes strain EGD, complete genome, segment 6/12
Координаты выравнивания(-ий) в найденной последовательности 134912-135751
Процент последовательности белка, вошедший в выравнивание с лучшей находкой 100

Нахождение записи EMBL по последовательности с помощью программы BLASTN


На сайте EBI (http://www.ebi.ac.uk/Tools/) осуществили поиск в банке "EMBL standard prokaryote".
с этим белком наша последовательность полностью выравнилась и совпадение 100%
>EM_PRO:AB001041 AB001041.1 Borrelia garinii DNA for outer surface protein A,
complete cds.
Length = 1500

Score = 357 bits (180),
Expect = 3e-96Identities = 180/180 (100%)
Strand = Plus / Plus

Query:   1 gctgacaaaagtaaagcaaaattaacaatttctcaagatttaaatcaaaccacatttgaa 60
           ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 575 gctgacaaaagtaaagcaaaattaacaatttctcaagatttaaatcaaaccacatttgaa 634

Query:  61 attttccaagaagatggcaaaacattagtgtcaagaaaagtaaattctaaagacaagtca 120
           ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 635 attttccaagaagatggcaaaacattagtgtcaagaaaagtaaattctaaagacaagtca 694

Query: 121 tcaacagaagaaaaatttaatgataaaggtaaattaagcgaaaaggtagtaacaagaaaa 180
           ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 695 tcaacagaagaaaaatttaatgataaaggtaaattaagcgaaaaggtagtaacaagaaaa 754



координаты заданной последовательности 575-754

FT   source          1..1500
FT                   /organism="Borrelia garinii"
FT                   /strain="JEM4"
FT                   /mol_type="genomic DNA"
FT                   /db_xref="taxon:29519"
FT   -35_signal      257..269
FT   -10_signal      279..290
FT   RBS             322..327
FT   CDS             335..1153
FT                   /codon_start=1
FT                   /transl_table=11
FT                   /gene="ospA"
FT                   /product="outer surface protein A"
FT                   /db_xref="GOA:P96568"
FT                   /db_xref="HSSP:1OSP"
FT                   /db_xref="InterPro:IPR001809"
FT                   /db_xref="InterPro:IPR023322"
FT                   /db_xref="UniProtKB/TrEMBL:P96568"
FT                   /protein_id="BAA19222.1"
FT                   /translation="MKKYLLGIGLILALIACKQNVSSLDEKNGVSVDLPGEMKVLVSKE
FT                   KDKDGKYSLMATVDKLELKGTSDKSNGSGVLEGEKADKSKAKLTISQDLNQTTFEIFQE
FT                   DGKTLVSRKVNSKDKSSTEEKFNDKGKLSEKVVTRKDGTRLEYTEIQNDGSGKAKEVLE
FT                   GLTLEGTLAADGKTTLTVTEGTVTLSKNISKSGEITVALDDTASANKKSGTWDSDTSTL
FT                   TIIKNSQKTKQLVFTKENTITVQNYNTAGNALEGSPDEIKDLAKLQAALK"
    

Этот участок соответствует гену ospA, результатом экспрессии которого является мембранный белок А
Он является частью аннотированной кодирующей последовательности (CDS) с координатами 335..1153, лежит на прямой цепи
CDS соответствует P96568 записи банка UniProt.

Поиск гомологов с помощью программы BLASTN

Создан файл с последовательностью из генома , кодирующей белок RBGA_BACSU: cds.fasta
Пользуемся командой
blastall -p blastn -d lm -i rbga_bacsu.fasta -e 0.1 -o blastn

в результате получаем список гомологов нуклеотидной последовательности белка RBGA_BACSU по нуклеотидной последовательности генома бактерии Xanthomonas campestris :
Лучший и единственный результат:
>embl|AL591978|AL591978 Listeria monocytogenes strain EGD, complete   
              genome, segment 6/12                                    
          Length = 250050                                             
                                                                      
 Score = 36.2 bits (18), Expect = 0.032                               
 Identities = 33/38 (86%)                                             
 Strand = Plus / Plus                                                 
                                                                         
                                                                      
Query: 1      atgacaattcaatggttcccgggccatatggcaaaagc 38               
              ||||||||||| ||||| || || |||||||| |||||                  
Sbjct: 134912 atgacaattcagtggtttccaggtcatatggccaaagc 134949           


По результатам поиска была заполнена таблица
Число находок с Е-value<0,1 1
Характеристика лучшей находки:  
   E-value находки 0.032
Название геномной последовательности Listeria monocytogenes strain EGD, complete genome, segment 6/12
Координаты выравнивания(-ий) в найденной последовательности 134912-134949

Поиск с помощью blastn нашел гомолог,но его e-value высокий и он всего один, в отличие от выдачи tblastn, который нашел 4 гомолога с хорошим e-value.
Из этого можно заключить, что лучше и эффективнее искать по аминокислотной последовательности, еще и потому что такое выравнивание учитывает функциональную близость аминокислот.


© Garanina Irina