На главную страницу второго семестра.

Занятие 7. Программы построения глобального и локального выравнивания.




Задание №1. Выравнивание последовательностей со схожей функцией (возможных гомологов).


Для выполнения задания подготовлено три файла с аминокислотными последовательностями в FASTA формате:
  1. ARGB_ECOLI.fasta - аминокислотная последовательность моего белка;
  2. ARGB_ACIAD.fasta - последовательность белка ARGB_ACIAD, найденного при выполнении заданий 4 и 5 занятия 2;
  3. thirdprot.fasta - искусственно созданная последовательность, склеенная из двух небольших (10 букв: первый сегмент, 11 букв - второй) участков аминокислотной последовательности моего белка.

Построено глобальное и локальное выравнивание последовательностей из ARGB_ECOLI.fasta и ARGB_ACIAD.fasta с помощью программ needle и water соответственно. Результаты сохранены в файлах 1to2.needle и 1to2.water папки Practice7, а также приведены ниже:

Taбл.1 Глобальное выравнивание программой needle.

Aligned_sequences: 2         
1: ARGB_ECOLI     
2: ARGB_ACIAD                
Matrix: EBLOSUM62            
Gap_penalty: 10.0            
Extend_penalty: 0.5          
                             
Length: 306                  
Identity:      84/306 (27.5%)
Similarity:   140/306 (45.8%)
Gaps:          51/306 (16.7%)
Score: 295.0                 
ARGB_ECOLI         1 ------------------------MMNPLIIKLGGVLLDSEEALERLFSA     26
                                             ....|::|.||..:...| ||..|:.
ARGB_ACIAD         1 MPHQHKGIDKAKILTEALPYIQRFSGKTLVVKYGGNAMTDPE-LESSFAR     49

ARGB_ECOLI        27 -LVNYRESHQRPLVIVHGGGCVVDELMKGLNLPVKKKNGLRVTPADQIDI     75
                      :|..:.....| ::|||||..||.|:|.|.....:.:|:|||....:::
ARGB_ACIAD        50 DIVLLKTVGLNP-IVVHGGGPQVDSLLKRLGQVSDRIDGMRVTDEATMEV     98

ARGB_ECOLI        76 ITGALAGTANKTLLAWAKKHQIAAVGLFLGDGDSVKVTQL-----DE--E    118
                     :...|.|:.||:::....:|...|:||...||:.::..:|     ||  :
ARGB_ACIAD        99 VEMVLGGSVNKSIVNLINQHGGRAIGLTGKDGNLIRARKLLMEKHDEQGD    148

ARGB_ECOLI       119 LGHVGLAQPG-----SPKLINSLLENGYLPVVSSIGVTDEGQLMNVNADQ    163
                     :.|:.|...|     ...::....::.::||::.:||.:.|...|:|||.
ARGB_ACIAD       149 IKHIDLGLVGEVVGIKTDVLEMFTQSDFIPVIAPLGVDESGNTYNINADL    198

ARGB_ECOLI       164 AATALAATLGAD-LILLSDVSGILDGKGQRIAEMTAAKAEQLIEQGIITD    212
                     .|..:|..|||: ||||:::||:||.....:..::..:.::||..|:|..
ARGB_ACIAD       199 VAGKVAEALGAEKLILLTNISGVLDENKNLLTGLSTQEVDRLIATGVIYG    248

ARGB_ECOLI       213 GMIVKVNAALDAARTLGRPVDIASWR--HAEQLPALFNGMPMGTRILA--    258
                     |||.||..||||.:.......|...|  ||..| .:|....:||.|..  
ARGB_ACIAD       249 GMIPKVGCALDAVKGGVVSAHIVDGRVPHATLL-EIFTDHGVGTLITNRL    297

ARGB_ECOLI       259 ------    258
                           
ARGB_ACIAD       298 HAKSEH    303

Taбл.2 Локальное выравнивание программой water.

Aligned_sequences: 2         
1: ARGB_ECOLI     
2: ARGB_ACIAD                
Matrix: EBLOSUM62            
Gap_penalty: 10.0            
Extend_penalty: 0.5          
                             
Length: 268                  
Identity:      84/268 (31.3%)
Similarity:   140/268 (52.2%)
Gaps:          19/268 ( 7.1%)
Score: 303.0                 
ARGB_ECOLI         5 LIIKLGGVLLDSEEALERLFSA-LVNYRESHQRPLVIVHGGGCVVDELMK     53
                     |::|.||..:...| ||..|:. :|..:.....| ::|||||..||.|:|
ARGB_ACIAD        29 LVVKYGGNAMTDPE-LESSFARDIVLLKTVGLNP-IVVHGGGPQVDSLLK     76

ARGB_ECOLI        54 GLNLPVKKKNGLRVTPADQIDIITGALAGTANKTLLAWAKKHQIAAVGLF    103
                     .|.....:.:|:|||....::::...|.|:.||:::....:|...|:||.
ARGB_ACIAD        77 RLGQVSDRIDGMRVTDEATMEVVEMVLGGSVNKSIVNLINQHGGRAIGLT    126

ARGB_ECOLI       104 LGDGDSVKVTQL-----DE--ELGHVGLAQPG-----SPKLINSLLENGY    141
                     ..||:.::..:|     ||  ::.|:.|...|     ...::....::.:
ARGB_ACIAD       127 GKDGNLIRARKLLMEKHDEQGDIKHIDLGLVGEVVGIKTDVLEMFTQSDF    176

ARGB_ECOLI       142 LPVVSSIGVTDEGQLMNVNADQAATALAATLGAD-LILLSDVSGILDGKG    190
                     :||::.:||.:.|...|:|||..|..:|..|||: ||||:::||:||...
ARGB_ACIAD       177 IPVIAPLGVDESGNTYNINADLVAGKVAEALGAEKLILLTNISGVLDENK    226

ARGB_ECOLI       191 QRIAEMTAAKAEQLIEQGIITDGMIVKVNAALDAARTLGRPVDIASWR--    238
                     ..:..::..:.::||..|:|..|||.||..||||.:.......|...|  
ARGB_ACIAD       227 NLLTGLSTQEVDRLIATGVIYGGMIPKVGCALDAVKGGVVSAHIVDGRVP    276

ARGB_ECOLI       239 HAEQLPALFNGMPMGTRI    256
                     ||..| .:|....:||.|
ARGB_ACIAD       277 HATLL-EIFTDHGVGTLI    293

Различия действительно есть и довольно существенные. Во-первых, и наиболее важное различие: количество выравненных остатков в случае локального выравнивания меньше, чем у глобального выравнивания: на 20 аминокислотных остатков. Не выравненными оказались лидерный пептид у последовательности белка ARGB_ACIAD и видимо остаток от лидерного пептида ARGB_ECOLI (все же таким коротким, в четыре аминокислоты, лидерный пептид не бывает), а также последние аминокислоты последовательности белка ARGB_ACIAD, так как выравниваемая с ARGB_ACIAD последовательность моего белка короче. В случае локального выравнивания выше перечисленные участки белков в выравнивании отсутствуют. Отсюда вытекающие последствия (представленные ниже проценты являются соответствующими данными глобального и локального выравниваний):
Вывод: локальное выравнивание позволяет с эволюционной точки зрения более точно оценить границы возможных доменов или участков в гомологичных белках, сохраняемых отбором в неизменном виде (или преобразуемые незначительно, без потери функциональной роли или важного значения для структуры белка), так как вес выравнивания оказывается выше, чем в случае глобального выравнивания, что более точно отражает действительность (нет "лишних" гэпов, занижающих вес выравнивания).

Задание №2. Выравнивание последовательностей, содержащих общие участки.


Построены глобальное и локальное выравнивания последовательностей из ARGB_ECOLI.fasta и Thirdprot.fasta с помощью программ needle и water соответственно. Результаты сохранены в файлах 1to3.needle и 1to3.water, а также приведены ниже:

Taбл.3 Глобальное выравнивание программой needle.

Aligned_sequences: 2         
1: ARGB_ECOLI     
2: Thirdprot                          
Matrix: EBLOSUM62            
Gap_penalty: 10.0            
Extend_penalty: 0.5          
                             
Length: 258                  
Identity:      21/258 ( 8.1%)
Similarity:    21/258 ( 8.1%)
Gaps:         237/258 (91.9%)
Score: 91.5                  
ARGB_ECOLI         1 MMNPLIIKLGGVLLDSEEALERLFSALVNYRESHQRPLVIVHGGGCVVDE     50
                     ||||||||||                  |||||||||||           
Thirdprot          1 MMNPLIIKLG------------------NYRESHQRPLV-----------     21

ARGB_ECOLI        51 LMKGLNLPVKKKNGLRVTPADQIDIITGALAGTANKTLLAWAKKHQIAAV    100
                                                                       
Thirdprot         22 --------------------------------------------------     21

ARGB_ECOLI       101 GLFLGDGDSVKVTQLDEELGHVGLAQPGSPKLINSLLENGYLPVVSSIGV    150
                                                                       
Thirdprot         22 --------------------------------------------------     21

ARGB_ECOLI       151 TDEGQLMNVNADQAATALAATLGADLILLSDVSGILDGKGQRIAEMTAAK    200
                                                                       
Thirdprot         22 --------------------------------------------------     21

ARGB_ECOLI       201 AEQLIEQGIITDGMIVKVNAALDAARTLGRPVDIASWRHAEQLPALFNGM    250
                                                                       
Thirdprot         22 --------------------------------------------------     21

ARGB_ECOLI       251 PMGTRILA    258
                             
Thirdprot         22 --------     21

Taбл.4 Локальное выравнивание программой water.

Aligned_sequences: 2        
1: ARGB_ECOLI    
2: Thirdprot                         
Matrix: EBLOSUM62           
Gap_penalty: 10.0           
Extend_penalty: 0.5         
                            
Length: 39                  
Identity:      21/39 (53.8%)
Similarity:    21/39 (53.8%)
Gaps:          18/39 (46.2%)
Score: 91.5                 
ARGB_ECOLI         1 MMNPLIIKLGGVLLDSEEALERLFSALVNYRESHQRPLV     39
                     ||||||||||                  |||||||||||
Thirdprot          1 MMNPLIIKLG------------------NYRESHQRPLV     21

Выводы практически те же, что и при выполнении первого задания:
Но при этом вес выравнивания (Score) остается неизменным: 91.5!! Очевидно, это связано с тем, что ни в глобальном, ни в локальном выравниваниях не учитываются штрафы за концевые (а также начальные, которых в моем случае нет) гэпы, отчего вес обоих выравниваний одинаков.
Затем были получены три локальных выравнивания ARGB_ECOLI c Thirdprot, при использовании программы matcher. Результаты представлены ниже:

Табл.5 Результаты выполнения программы matcher:

Aligned_sequences: 2        
1: ARGB_ECOLI    
2: Thirdprot                
Matrix: EBLOSUM62           
Gap_penalty: 14             
Extend_penalty: 4           
                            
Length: 17                  
Identity:      13/17 (76.5%)
Similarity:    13/17 (76.5%)
Gaps:           0/17 ( 0.0%)
Score: 62                   
                    30         
ARGB_ECOLI    LFSALVNYRESHQRPLV
              :   : :::::::::::
Thirdprot     LIIKLGNYRESHQRPLV
                  10        20 
Aligned_sequences: 2          
1: ARGB_ECOLI      
2: Thirdprot                  
Matrix: EBLOSUM62             
Gap_penalty: 14               
Extend_penalty: 4             
                              
Length: 10                    
Identity:      10/10 (100.0%) 
Similarity:    10/10 (100.0%) 
Gaps:           0/10 ( 0.0%)  
Score: 50                     
                      10
ARGB_ECOLI    MMNPLIIKLG
              ::::::::::
Thirdprot     MMNPLIIKLG
                      10
Aligned_sequences: 2         
1: ARGB_ECOLI   
2: Thirdprot                 
Matrix: EBLOSUM62            
Gap_penalty: 14              
Extend_penalty: 4            
                             
Length: 13                   
Identity:       3/13 (23.1%) 
Similarity:     8/13 (61.5%) 
Gaps:           0/13 ( 0.0%) 
Score: 23                    
                     240    
ARGB_ECOLI     VDIASWRHAEQLP
               . . ..: . : :
Thirdprot      IKLGNYRESHQRP
                 10         

Результаты не очень удовлетворительные: в двух из трех выравниваний участки выравнивания совсем не совпали с теми, которые были взяты из белка для создания последовательности Thirdprot. Поэтому напрашивается вывод: лучшее выравнивание, которое можно получить при использовании программ, не всегда несет в себе биологический смысл; точнее сказать лучшее выравнивание может оказаться вообще без биологического смысла!!!. Но поэтому всегда выгодно сделать запрос на несколько локальных выравниваний: чтобы можно было выбрать одно, интуитивно предполагая, что это выравнивание биологически осмыслено [под биол. смыслом понимается отражение в выравнивании функционально значимых участков, которые с большей вероятностью могут оказаться похожими у родственных белков; аминокислоты структурных элементов белков также должны в выравнивании показывать хорошее сходство ( хотя петли, являющиеся элементом вторичной организации белка, могут быть сильно вариабельны); активные центры у гомологичных белков также должны быть идентичными или очень сходными; или как в моём случае: "склеенный пептид" из последовательных остатков моего белка должен четко попасть на "родительские аминокислоты".

Задание №3. Параметры программ построения выравниваний.


Построены глобальные выравнивания последовательностей из ARGB_ECOLI.fasta и thirdprot.fasta с помощью программы needle при разных значениях параметра штрафа за открытие гэпа. Значение штрафа за продолжение гэпа установлено равным 1. Результаты приведены в таблицах:

Табл.6 Результаты программы needle при значениях штрафа за открытие гэпа = 1 и штрафа за продолжение гэпа = 1.

Aligned_sequences: 2         
1: ARGB_ECOLI     
2: Thirdprot                           
Matrix: EBLOSUM62            
Gap_penalty: 1.0             
Extend_penalty: 1.0          
                             
Length: 258                  
Identity:      21/258 ( 8.1%)
Similarity:    21/258 ( 8.1%)
Gaps:         237/258 (91.9%)
Score: 92.0                  

ARGB_ECOLI         1 MMNPLIIKLGGVLLDSEEALERLFSALVNYRESHQRPLVIVHGGGCVVDE     50
                     ||||||||| |                 |||||||||||           
Thirdprot          1 MMNPLIIKL-G-----------------NYRESHQRPLV-----------     21

ARGB_ECOLI        51 LMKGLNLPVKKKNGLRVTPADQIDIITGALAGTANKTLLAWAKKHQIAAV    100
                                                                       
Thirdprot         22 --------------------------------------------------     21

ARGB_ECOLI       101 GLFLGDGDSVKVTQLDEELGHVGLAQPGSPKLINSLLENGYLPVVSSIGV    150
                                                                       
Thirdprot         22 --------------------------------------------------     21

ARGB_ECOLI       151 TDEGQLMNVNADQAATALAATLGADLILLSDVSGILDGKGQRIAEMTAAK    200
                                                                       
Thirdprot         22 --------------------------------------------------     21

ARGB_ECOLI       201 AEQLIEQGIITDGMIVKVNAALDAARTLGRPVDIASWRHAEQLPALFNGM    250
                                                                       
Thirdprot         22 --------------------------------------------------     21

ARGB_ECOLI       251 PMGTRILA    258
                             
Thirdprot         22 --------     21

Табл.7 Результаты программы needle при значениях штрафа за открытие гэпа = 5 и штрафа за продолжение гэпа = 1.


Aligned_sequences: 2         
1: ARGB_ECOLI     
2: Thirdprot                 
Matrix: EBLOSUM62            
Gap_penalty: 5.0             
Extend_penalty: 1.0          
                             
Length: 258                  
Identity:      21/258 ( 8.1%)
Similarity:    21/258 ( 8.1%)
Gaps:         237/258 (91.9%)
Score: 88.0                  
ARGB_ECOLI         1 MMNPLIIKLGGVLLDSEEALERLFSALVNYRESHQRPLVIVHGGGCVVDE     50
                     ||||||||||                  |||||||||||           
Thirdprot          1 MMNPLIIKLG------------------NYRESHQRPLV-----------     21

ARGB_ECOLI        51 LMKGLNLPVKKKNGLRVTPADQIDIITGALAGTANKTLLAWAKKHQIAAV    100
                                                                       
Thirdprot         22 --------------------------------------------------     21

ARGB_ECOLI       101 GLFLGDGDSVKVTQLDEELGHVGLAQPGSPKLINSLLENGYLPVVSSIGV    150
                                                                       
Thirdprot         22 --------------------------------------------------     21

ARGB_ECOLI       151 TDEGQLMNVNADQAATALAATLGADLILLSDVSGILDGKGQRIAEMTAAK    200
                                                                       
Thirdprot         22 --------------------------------------------------     21

ARGB_ECOLI       201 AEQLIEQGIITDGMIVKVNAALDAARTLGRPVDIASWRHAEQLPALFNGM    250
                                                                       
Thirdprot         22 --------------------------------------------------     21

ARGB_ECOLI       251 PMGTRILA    258
                             
Thirdprot         22 --------     21

Табл.8 Результаты программы needle при значениях штрафа за открытие гэпа = 10 и штрафа за продолжение гэпа = 1.


Aligned_sequences: 2         
1: ARGB_ECOLI     
2: Thirdprot                 
Matrix: EBLOSUM62            
Gap_penalty: 10.0            
Extend_penalty: 1.0          
                             
Length: 258                  
Identity:      21/258 ( 8.1%)
Similarity:    21/258 ( 8.1%)
Gaps:         237/258 (91.9%)
Score: 83.0                  
ARGB_ECOLI         1 MMNPLIIKLGGVLLDSEEALERLFSALVNYRESHQRPLVIVHGGGCVVDE     50
                     ||||||||||                  |||||||||||           
Thirdprot          1 MMNPLIIKLG------------------NYRESHQRPLV-----------     21

ARGB_ECOLI        51 LMKGLNLPVKKKNGLRVTPADQIDIITGALAGTANKTLLAWAKKHQIAAV    100
                                                                       
Thirdprot         22 --------------------------------------------------     21

ARGB_ECOLI       101 GLFLGDGDSVKVTQLDEELGHVGLAQPGSPKLINSLLENGYLPVVSSIGV    150
                                                                       
Thirdprot         22 --------------------------------------------------     21

ARGB_ECOLI       151 TDEGQLMNVNADQAATALAATLGADLILLSDVSGILDGKGQRIAEMTAAK    200
                                                                       
Thirdprot         22 --------------------------------------------------     21

ARGB_ECOLI       201 AEQLIEQGIITDGMIVKVNAALDAARTLGRPVDIASWRHAEQLPALFNGM    250
                                                                       
Thirdprot         22 --------------------------------------------------     21

ARGB_ECOLI       251 PMGTRILA    258
                             
Thirdprot         22 --------     21

Выводы: при увеличении значения штрафа за открытие гэпа вес выравнивания закономерно уменьшается. Хотя в первом выравнивании действительно из-за неестественного гэпа между глицинами вес несколько занижен, но все же при разных величинах штрафов, вес выравнивания разный.

Задание №4. Карта локального сходства.


Были построены карты локального сходства программой dotmatcher между последовательностями белков ARGB_ECOLI и пептидом Thirdprot при разных значениях размера окна и величины порога. Все карты локального сходства сохранены в соответствующих файлах: dotmatcher10_23.ps - размер окна = 10, величина порога = 23; dotmatcher10_10.ps - размер окна = 10, величина порога = 10; dotmatcher5_23.ps - размер окна = 5, величина порога = 23; dotmatcher5_10.ps - размер окна = 5, величина порога = 10. Замеченные особенности: при увеличении размера окна и неизменности величины порога длина выравненных участков (линий на карте) увеличивается при неизменном их количестве, что вполне объяснимо. Действительно, "окно" - это, на мой взгляд, хотя я могу и ошибаться, некий небольшой "отрезок аминокислот" определенной длины ("размер окна"), который "вырезается" из последовательностей выравниваемых белков. Всего таких отрезков может быть очень много, так как вырезать можно начиная с любой аминокислоты. Затем эти отрезки из обеих последовательностей попарно комбинируются и для полученных пар высчитывается вес выравнивания. Если полученное значение равно или превышает значение порога, то на карте локального сходства для соответствующих аминокислотных отрезков строится диагональная черта. Поэтому, если варьировать размер окна при фиксированном значении порога, новых линий не появится: порог не позволяет, а имеющиеся линии могут измениться в длине. Наоборот, при неизменности размера окна и увеличении порога количество выравненных участков (линий на карте) уменьшается. Объяснение также логично: при увеличении порога, не каждый вес микровыравниваний может "достать до планки", установленной порогом. Отчего число черточек уменьшается. При очень высоких значений порога черточки вообще не появятся.







©Володя Рудько