Матрицы переходов


Глобальное выравнивание





Локальное выравнивание


  • Последовательности, для которых строилась матрица переходов:
    1. M K T D T P S L E - первые 9 аминокислот белка CLCA_ECOLI.
    2. K T S L E - аминокислоты 2, 3, 7, 8, 9 из белка CLCA_ECOLI.
  • Параметры, использовавшиеся при построении матрицы:
    1. Вес совпадения: 2.
    2. Вес замены: -1.
    3. Штраф за делецию: -2.
  • Картинка с матрицей переходов:

    M K D T T P S L E
    0 0 0 0 0 0 0 0 0 0
    K 0 0 Õ2 0 0 0 0 0 0 0
    T 0 0 0 Õ4 Ñ2 Õ2 0 0 0 0
    S 0 0 0 Ó2 Õ3 Ñ1 Õ1 Õ2 0 0
    L 0 0 0 0 Ó1 Õ2 0 0 Õ4 Ñ2
    E 0 0 0 0 0 0 Õ1 0 Ó2 Õ6

  • Выравнивания, соответствующие путям:
    • Оптимальному:

      S L E
      S L E
      

    • Субоптимальному:

      K T
      K T
      

  • Веса путей:
    • Оптимального пути: 6.
    • Субоптимального пути: 4.



Влияние параметров на глобальное выравнивание


С помощью программы Needle были построены выравнивания с разными параметрами для двух последовательностей:

  1. Аминокислотная последовательность белка CLCA_ECOLI.
  2. Искусственно созданная последовательность, склеенная из двух небольших (12 букв каждый) участков аминокислотной последовательности белка CLCA_ECOLI (URODEC).

Параметры первого выравнивания:

  1. Штраф за открытие делеции: 1.
  2. Штраф за продолжение делеции: 1.

Параметры второго выравнивания:

  1. Штраф за открытие делеции: 10.
  2. Штраф за продолжение делеции: 1.

Ниже приведены эти выравнивания.

  • ПЕРВОЕ ВЫРАВНИВАНИЕ:
    
    CLCA_ECOLI         1 MKTDTPSLETPQAARLRRRQLIRQLLERDKTPLAILFMAAVVGTLVGLAA     50
                                                                           
    URODEC             1                                                         0
    
    CLCA_ECOLI        51 VAFDKGVAWLQNQRMGALVHTADNYPLLLTVAFLCSAVLAMFGYFLVRKY    100
                                                                           
    URODEC             1                                                         0
    
    CLCA_ECOLI       101 APEAGGSGIPEIEGALEDQRPVRWWRVLPVKFFGGLGTLGGGMVLGREGP    150
                                                                           
    URODEC             1                                                         0
    
    CLCA_ECOLI       151 TVQIGGNIGRMVLDI-FRLKGDEARHTLLATGAAAGLAAAFNAPLAGILF    199
                                  | ||.: | . |  .    |. ||||||||||||       
    URODEC             1          R-VLPVKF-F-G--G----LG-GAAAGLAAAFNA            24
    
    CLCA_ECOLI       200 IIEEMRPQFRYTLISIKAVFIGVIMSTIMYRIFNHEVALIDVGKLSDAPL    249
                                                                           
    URODEC            25                                                        24
    
    CLCA_ECOLI       250 NTLWLYLILGIIFGIFGPIFNKWVLGMQDLLHRVHGGNITKWVLMGGAIG    299
                                                                           
    URODEC            25                                                        24
    
    CLCA_ECOLI       300 GLCGLLGFVAPATSGGGFNLIPIATAGNFSMGMLVFIFVARVITTLLCFS    349
                                                                           
    URODEC            25                                                        24
    
    CLCA_ECOLI       350 SGAPGGIFAPMLALGTVLGTAFGMVAVELFPQYHLEAGTFAIAGMGALLA    399
                                                                           
    URODEC            25                                                        24
    
    CLCA_ECOLI       400 ASIRAPLTGIILVLEMTDNYQLILPMIITGLGATLLAQFTGGKPLYSAIL    449
                                                                           
    URODEC            25                                                        24
    
    CLCA_ECOLI       450 ARTLAKQEAEQLARSKAASASENT    473
                                                 
    URODEC            25                              24
    
    
    
  • ВТОРОЕ ВЫРАВНИВАНИЕ:
    
    CLCA_ECOLI         1 MKTDTPSLETPQAARLRRRQLIRQLLERDKTPLAILFMAAVVGTLVGLAA     50
                                                                           
    URODEC             1                                                         0
    
    CLCA_ECOLI        51 VAFDKGVAWLQNQRMGALVHTADNYPLLLTVAFLCSAVLAMFGYFLVRKY    100
                                                                           
    URODEC             1                                                         0
    
    CLCA_ECOLI       101 APEAGGSGIPEIEGALEDQRPVRWWRVLPVKFFGGLGTLGGGMVLGREGP    150
                                                  ||||||||||||             
    URODEC             1                          RVLPVKFFGGLG-------------     12
    
    CLCA_ECOLI       151 TVQIGGNIGRMVLDIFRLKGDEARHTLLATGAAAGLAAAFNAPLAGILFI    200
                                                       ||||||||||||        
    URODEC            13 ------------------------------GAAAGLAAAFNA             24
    
    CLCA_ECOLI       201 IEEMRPQFRYTLISIKAVFIGVIMSTIMYRIFNHEVALIDVGKLSDAPLN    250
                                                                           
    URODEC            25                                                        24
    
    CLCA_ECOLI       251 TLWLYLILGIIFGIFGPIFNKWVLGMQDLLHRVHGGNITKWVLMGGAIGG    300
                                                                           
    URODEC            25                                                        24
    
    CLCA_ECOLI       301 LCGLLGFVAPATSGGGFNLIPIATAGNFSMGMLVFIFVARVITTLLCFSS    350
                                                                           
    URODEC            25                                                        24
    
    CLCA_ECOLI       351 GAPGGIFAPMLALGTVLGTAFGMVAVELFPQYHLEAGTFAIAGMGALLAA    400
                                                                           
    URODEC            25                                                        24
    
    CLCA_ECOLI       401 SIRAPLTGIILVLEMTDNYQLILPMIITGLGATLLAQFTGGKPLYSAILA    450
                                                                           
    URODEC            25                                                        24
    
    CLCA_ECOLI       451 RTLAKQEAEQLARSKAASASENT    473
                                                
    URODEC            25                             24
    
    
    

Учитывая, что программа Needle не считает крайние делеции, в первом случае наблюдается 6 делеций, а во втором - только 1. Так происходит, потому что задача программы - найти такое выравнивание, при котором достигается наибольший вес выравнивания. Естественно, при линейной системе штрафов (первый случай) "выгодней" сделать больше делеций, совместив тем самым больше аминокислот, чем при аффинной системе штрафов (второй случай), где одна большая делеция, скорее всего, даст больший вес, чем ряд мелких вставок.

Вот так вот всё и получается...

На главную...


© Трушкин Никита,2005