Программы пакета BLAST для работы с нуклеотидными последовательностями

На главную страницу третьего семестра

Поиск гомологов FCTA_Ecoli Геном Vibrio cholerae Геном Pseudomonas aeruginosa Геном Pasteurella multocida Три генома одновременно
Характеристика лучшей находки: AE004428 AE004792 AE006167 AE004792
     E-value находки 2,2 4e-42 3,6 7e-42
  координаты выравнивания(-ий)
в записи генома
2182-2325 4588-5766 3023-3082 4588-5766
AC соответствующей записи EMBL AE004428, AE003853 AE004792 AE006167, AE004439 AE004792
  Координаты CDS в записи EMBL (если они есть)   SRS выдает ссылку на полный геном, поиск в котором, мягко скажем, затруднителен.   SRS выдает ссылку на полный геном, поиск в котором, мягко скажем, затруднителен.
  AC UniProt в записи EMBL (если есть)   См. выше   См. выше
Число находок с Е-value<0,01
0 5 0 5

Итак, что мы можем увидеть из полученных результатов? Уровень сходства, показанный для геномов Vibrio cholerae и Pasteurella multocida, не позволяет говорить о какой-либо гомологии. Иначе дело обстоит с геномом Pseudomonas aeruginosa. Для него обнаружено целых 5 значимых выравниваний, причем первые 2 из них не принципиально различаются по уровню e-value (4e-42 и 8e-42), хотя и относятся к различным участкам генома. Не является ли это результатом дубликации одного гена?

Сравнивая e-value лучшей находки для генома Pseudomonas aeruginosa и 3 геномов одновременно в качестве баз данных, можно заметить, что во втором случае e-value выше. Это связано с увеличением длины базы данных без увеличения сходства ее с выравниваемой последовательностью. В самом деле, мы просто добавляем 2 больших участка, не порождающих значимых выравниваний.

Выравнивание 1

AE004792 Pseudomonas aeruginosa PAO1, section 353 of 529 of the complete genome. Expect=4e-42
Query: 4    PLQGIKVLDFTGVQSGPSCTQMLAWFGADVIKIERPGVGDVTRHQLRDIPDIDALYFTML 63  
            PL G+KV++   + +GP  +++ A FGA+VIKIE P  GD  R + R + +  +L++ +      
Sbjct: 4588 PLAGLKVVELGTLIAGPFASRICAEFGAEVIKIESPDGGDPLR-KWRKLYEGTSLWWFVQ 4764
                                                                             
Query: 64   NSNKRSIELNTKTAEGKEVMEKLIREADILVENFHPGAIDHMGFTWEHIQEINPRLIFGS 123 
              NK+S+ LN K AEG+ ++++L+ +ADIL+ENF PG ++ +G  W+ +  +NPRL+        
Sbjct: 4765 ARNKKSLTLNLKHAEGQAILKRLLGDADILIENFRPGVLEKLGLGWDVLHALNPRLVMVR 4944
                                                                             
Query: 124  IKGFDECSPYVNVKAYENVXXXXXXXXSTTGFWDGPPLVSAAALGDSNTGMHXXXXXXXX 183 
            + GF +  PY +   +  V          TGF D PP+ +  ++GDS   +              
Sbjct: 4945 LSGFGQTGPYKDQPGFGAVGESMGGLRYITGFEDRPPVRTGISIGDSIAALWGVIGALMA 5124
                                                                             
Query: 184  XXHRE-KTGRGQRVTMSMQDAVLNLCRVKLRDQQRLDKLGYLEEYPQYPNGTFGDAVPRX 242 
              HRE   G GQ V +++ +A+  +    + +    D  G++ E      G     +        
Sbjct: 5125 LRHREVNGGEGQMVDVALYEAIFAMMESMVPE---FDVFGFIRE----RTGNIMPGITPS 5283
                                                                             
Query: 243  XXXXXXXXXXWILKCKGWETDPNAYIYFTIQEQNWENTCKAIGKPEWITDPAYSTAHARQ 302 
                        +   G              +  +    +AIG+ +  +DP  ++   R      
Sbjct: 5284 SIHTSADGRHVQIGANG--------------DAIFRRFMQAIGRDDLASDPRLASNDGRD 5421
                                                                             
Query: 303  PHIFDIFAEIEKYTVTIDKHEAVAYLTQFDIPCAPVLSMKEISLDPSLRQSGSVVEVEQP 362 
                +++  I+++  +    E +A L + ++P + + S +++  DP        +    P     
Sbjct: 5422 ARRDELYGVIDRWVASQPLEEVLAVLARAEVPASRIYSAEDMFRDPQFLAREMFLSARLP 5601
                                                                             
Query: 363  LRGKYLTVGCPMKFSAFTPDIK--AAPLLGEHTAAVLQELGYSDDEIAAMKQNHAI 416     
                +   G   K SA TP       P LGEHT A+L ELGY  + IAA+++  AI         
Sbjct: 5602 DGKPFRMPGIVPKLSA-TPGSADWVGPELGEHTDALLAELGYDSEGIAALRREGAI 5766

Выравнивание 2

AE004482 Pseudomonas aeruginosa PAO1, section 43 of 529 of the complete genome. Expect=8e-42
Query: 1    MSTPLQGIKVLDFTGVQSGPSCTQMLAWFGADVIKIERPGVGDVTRHQ----LRDIPDID 56      
            M   L  I+VLD + V +GP   Q+LA  GA+VIKIERPG GD TR      L+D    D     
Sbjct: 2726 MPGALSHIRVLDLSRVLAGPWAGQILADLGAEVIKIERPGSGDDTRAWGPPFLKDAEGND 2547
                                                                             
Query: 57   ---ALYFTMLNSNKRSIELNTKTAEGKEVMEKLIREADILVENFHPGAIDHMGFTWEHIQ 113 
               A Y+   N NK+S+ ++    EG+ ++ +L  +ADIL+ENF  G +   G  +E ++     
Sbjct: 2546 TSEAAYYLSANRNKKSVTVDFTQPEGQRIVRELAAKADILLENFKVGGLKAYGLDYESLK 2367
                                                                             
Query: 114  EINPRLIFGSIKGFDECSPYVNVKAYENVXXXXXXXXSTTGFWDGP----PLVSAAALGD 169 
            ++NP+LI+ SI GF +  PY     Y+ +        S TG  D      P+    AL D     
Sbjct: 2366 QVNPKLIYCSITGFGQSGPYAKRAGYDFMIQGLGGLMSLTGRADNEEGAGPVKVGVALTD 2187
                                                                             
Query: 170  SNTGMHXXXXXXXXXXHREKTGRGQRVTMSMQDAVLNLCRVKLRDQQRLDKLGYLEEYPQ 229 
              TG++          HR+ +G GQ + M++ D      +V     Q L+ L             
Sbjct: 2186 ILTGLYSSTAVLAALAHRDVSGIGQHIDMALLDV-----QVACLANQTLNYL-----TTG 2037
                                                                             
Query: 230  YPNGTFGDAVPRXXXXXXXXXXXWILKCKGWETDPNAYIYFTIQEQNWENTCKAIGKPEW 289 
             P    G+A P             I+  + + T     I     +  +    +    PEW     
Sbjct: 2036 VPPRRLGNAHPN------------IVPYQDFPTADGDMILTVGNDSQFRKFAELADHPEW 1893
                                                                             
Query: 290  ITDPAYSTAHARQPHIFDIFAEIEKYTVTIDKHEAVAYLTQFDIPCAPVLSMKEISLDPS 349 
              DP ++T  AR  +   +   I + TV     E +  L +  +PC P+  + ++  DP      
Sbjct: 1892 ADDPRFATNKARVANREVLIPLIRQATVLHTTAEWILSLERAGVPCGPINDLAQVFADPQ 1713
                                                                             
Query: 350  LRQSGSVVEVEQPLRGKYLTVGCPMKFSAFTPDIK-AAPLLGEHTAAVLQEL 400         
            ++  G  VE+  PL G    V  P++ S    + +   P LG+HT  VL+ L             
Sbjct: 1712 VQARGLRVELPHPLAGTVPQVASPIRLSETPVEYRNPPPTLGQHTDEVLETL 1557 

Сравним эти выравнивания с выравниваниями лучших находок из других геномов. AE006167 Pasteurella multocida subsp. multocida str. Pm70 section 134 of 204 of the complete genome. Expect = 3.6

Query: 219  DKLGYLEEYPQYPNGTFGDA 238         
            +K G LEEY  YPNG   +A     
Sbjct: 3023 EKFGPLEEYVPYPNGRIPNA 3082

AE004428 Vibrio cholerae O1 biovar eltor str. N16961 chromosome II, section 85 of 93 of the complete chromosome Expect = 2.2

Query: 349 SLRQSGSVVEVEQPLRGKYLTVGCPMKFSAFTPDIKAAPLLGEHTAAV 396 SL + S+++ EQP G+ + GC +K + P + A G A + Sbjct: 2182 SLEEMLSLIQREQPFAGELESAGCFIKIEDYLPVVCTAIHAGSRYAKI 2325

Разница очевидна. Происхождение последних выравниваний можно с чистой совестью объяснить случайными причинами. В то же время выравнивания из генома Pseudomonas aeruginosa несомненно имеют биологический смысл.

Поиск гомологов с помощью программы BLASTN

Проведен поиск гомолога гена frc из генома Escherichia coli W3110 в базе данных из тех же 3 геномов. Всего обнаружено 17 находок, из которых ни одна не имеет e-value ниже 0,01. Лучшей находкой (Expect = 0,20) оказалась следующая:

AE006208 Pasteurella multocida subsp. multocida str. Pm70 section 175 of 204 of the complete genome.

Выравнивание

Query: 310 tttttcgatttcagcaaa 327 |||||||||||||||||| Sbjct: 7506 tttttcgatttcagcaaa 7489

Заметно, что, хотя фрагменты стопроцентно совпадают, их длина слишком мала, чтобы иметь в озможность делать выводы о гомологии. Малая длина и является причиной сравнительно высокого e-value. Любопытный результат, если учесть наличие значимых находок при работе с TBLASTN. Вероятно, последовательности действительно являются гомологичными, отсутствие же результатов для BLASTN вызвано избыточностью генетического кода, которую эта программа совершенно не учитывает. При трансляции, естественно, эта проблема снимается, поэтому поиск с помощью TBLASTN оказывается более эффективен.
©Петрова Ирина