BLOSUM

Матрица весов BLOSUM62 была создана по данным базы BLOCKS, содержащей эталонные выравнивания, для определения веса выравнивания цитоплазматических белков. Число 62 означает процент идентичности сравниваемых последовательностей – порог кластеризации, после которого последовательности считаются одинаковыми.

Матрица весов PHAT была разработана для мембранных белков с учетом их специфики.

Я построила свою матрицу BLOSUM по данным базы BLOCKS на сегодняшний момент (табл. 1).

Таблица 1. Матрица BLOSUM, построенная вручную по данным базы BLOCKS для цитоплазматических белков

Проведем сравнение моей матрицы с матрицами BLOSUM62 и PHAT_T75_B73. Для этого возьмем отдельную аминокислоту – триптофан. Три значения представлены в таблице 2.

Таблица 2. Сравнение значений матриц весов замен для триптофана. Одинаковым цветом выделены аминокислоты, сходные по свойствам.

Таблица PHAT_T75_B73 построена с кластеризацией 75%, в отличие от матрицы BLOSUM, в которой процент кластеризации 62. Поэтому мы видим, что штрафы в матрице PHAT_T75_B73 гораздо больше. А моя матрица, как видно, более "мягкая". В ней все числа по модулю меньше, чем в других матрицах - меньше и штрафы, и "бонусы". Замена триптофана на самого себя почти не отличается, единственное что в моей матрице за это дается чуть меньший вес. За замену на близкую по свойствам аминокислоту дается чуть больший вес, чем, в других матрицах, а за замену на аминокислоту с другой функциональной группой дается меньший штраф, чем в BLOSUM62, и гораздо меньший, чем в PHAT_T75_B73 (все видно из таблицы). Что примечательно, триптофан настолько особенный по своей структуре и свойствам, что его замена на что-то другое очень сильно влияет на вес выравнивания.


Сравнение выравниваний мутантов, полученных вручную и с помощью программ needle и water.

В пакете EMBOSS команда needle использует алгоритм Нидлмана-Вунша для глобального выравнивания, а команда water – алгоритм Смита-Ватермана для локального выравнивания. Локальным оптимальным выравниванием называется такое оптимальное выравнивание фрагментов последовательностей, при котором любое удлинение или укорочение фрагментов приводит только к уменьшению веса. Локальному оптимальному выравниванию отвечает путь с наибольшим весом, независимо от того, где он начинается и где кончается. Данные, которые использовали программы в качестве стандартных:

 Matrix (матрица весов): EBLOSUM62
 Gap_penalty (штраф за гэп): 10.0
 Extend_penalty (штраф за продолжение гэпа): 0.5

Мутант 1-1.

Способ выравнивания Вручную needle water
% идентичности 6/20 = 30% 6/64 ( 9.4%) 6/16 (31.2%)
% сходства 9/20 = 45% 9/20 = 45% 8/16 (50.0%)
вес по матрице BLOSUM62 13 13.0 15.0
Needle
 Length: 64
P70994/1-64       1 MPYVTVKMLEGRTDEQKRNLVEKVTEAVKETTGASEEKIVVFIEEFTMRK      50
                              |..|.:..::.|.|.|...|                     
P70994            1 ---------EAWTHDFAKHHVHKGTMNHK---------------------     20

P70994/1-64       51 DHYAVAGKRLSDME     64
                                   
P70994            20 --------------     20

Water
 Length: 16

P70994/1-64       10 EGRTDEQKRNLVEKVT     25
                     |..|.:..::.|.|.|
P70994             1 EAWTHDFAKHHVHKGT     16

Вес выравнивания вручную и программой needle не отличаются (13), программа water сделала выравнивание в 16 аминокислотных остатков, что позволило немного увеличить вес выравнивания за счет отсутствия штрафа за несовпадение (15).

Мутант 1-2.

Способ вырванивания Вручную needle water
% идентичности 11/22 = 50% 11/64 (17.2%) 9/15 (60.0%))
% сходства 16/22 = 72,72% 14/64 (21.9%) 14/64 (21.9%)
вес по матрице BLOSUM62 38 35.0 39.0
Needle
 Length: 64

P70994/1-64        1 MPYVTVKMLEGRTDEQKRNLVEKVTEAVKETTGASEEKIVVFIEEFTMRK     50
                                            ||||..:||||:..|  .:|.|     
P70994             1 -----------------------VTEAPHDTTGANCRK--HYIGE-----     20

P70994/1-64       51 DHYAVAGKRLSDME     64
                                   
P70994            20 --------------     20
Water
 Length: 15
P70994/1-64       24 VTEAVKETTGASEEK     38
                     ||||..:||||:..|
P70994             1 VTEAPHDTTGANCRK     15

Здесь значения различаются. Выравнивание вручную сделано с тем учетом, что два гэпа дадут большую выгоду, чем один (38) – я расположила аминокислоты по свойствам. Программа needle сделала один гэп, но рядом оказались аминокислоты более далекие по свойствам, что сделало выравнивание менее выгодным (35.5). А программа water решила ограничиться выравниванием длиной всего в 15 аминокислотных остатков, соответственно, меньше штрафа за несовпадение (39).

Мутант 1-3.

Способ вырванивания Вручную needle water
% идентичности 12/20 = 60% 12/64 (18.8%) 12/20 (60.0%)
% сходства 13/20 = 65% 13/64 (20.3%) 13/20 (65.0%)
вес по матрице BLOSUM62 48 48.0 48.0
Needle
Length: 64
P70994/1-64        1 MPYVTVKMLEGRTDEQKRNLVEKVTEAVKETTGASEEKIVVFIEEFTMRK     50
                                                              ||||.|...
P70994             1 -----------------------------------------FIEEATPGH      9

P70994/1-64       51 DHYAVAGKRLSDME     64
                     .:.|.||||||   
P70994            10 KNMAFAGKRLS---     20
Water
 Length: 20
P70994/1-64       42 FIEEFTMRKDHYAVAGKRLS     61
                     ||||.|....:.|.||||||
P70994             1 FIEEATPGHKNMAFAGKRLS     20

Для этого выравнивания значения от полученных вручную не отличаются.

Сравнение выравниваний, полученных для полноразмерных мутантов вручную и построенных классическими алгоритмами Нидлмана-Вунша и Смита-Ватермана.

Использовала скрипт evolve_protein.pl для моделирования более близкой к реальности ситуации. Параметры мутантов для исследования указаны в таблице 3. Далее ручное выравнивание представлено картинкой, а программами needle и water - стандартными выдачами программ.

Таблица 3. Параметры эволюции мутантных белков.

Мутант 3-1.

% идентичности 18/20 = 90%
% сходства 18/20 = 90%
Program: needle
 Length: 64
 Identity:      18/64 (28.1%)
 Similarity:    19/64 (29.7%)
 Gaps:          44/64 (68.8%)
 Score: 87.0

P70994/1-64        1 MPYVTVKMLEGRTDEQKRNLVEKVTEAVKETTGASEEKIVVFIEEFTMRK     50
                                 .||||:||||||||||||||                  
generations=1      1 ------------IDEQKQNLVEKVTEAVKETT------------------     20

P70994/1-64       51 DHYAVAGKRLSDME     64
                                   
generations=1     20 --------------     20

 Program: water
 Length: 19
 Identity:      18/19 (94.7%)
 Similarity:    19/19 (100.0%)
 Gaps:           0/19 ( 0.0%)
 Score: 88.0

P70994/1-64       14 DEQKRNLVEKVTEAVKETT     32
                     ||||:||||||||||||||
generations=1      2 DEQKQNLVEKVTEAVKETT     20

Мутант 3-2.

% идентичности 9/20 = 45%
% сходства 9/20 = 45%
 Program: needle
 Length: 64
 Identity:      10/64 (15.6%)
 Similarity:    12/64 (18.8%)
 Gaps:          44/64 (68.8%)
 Score: 24.5

P70994/1-64        1 MPYVTVKMLEGRTDEQKRNLVEKVTEAVKETTGASEEKIVVFIEEFTMRK     50
                         |.|:......|||||||  |.:                        
generations=1      1 ----TCKLWCEDDVEQKRNLV--VCK------------------------     20

P70994/1-64       51 DHYAVAGKRLSDME     64
                                   
generations=1     20 --------------     20
 Program: water
 Length: 7
 Identity:       7/7 (100.0%)
 Similarity:     7/7 (100.0%)
 Gaps:           0/7 ( 0.0%)
 Score: 34.0

P70994/1-64       15 EQKRNLV     21
                     |||||||
generations=1     11 EQKRNLV     17

Мутант 3-3.

% идентичности 15/20 = 75
% сходства 16/20 = 80%
Program: needle
 Length: 65
 Identity:      18/65 (27.7%)
 Similarity:    18/65 (27.7%)
 Gaps:          46/65 (70.8%)
 Score: 81.0

P70994/1-64        1 MPYVTVKMLEGRTDE-QKRNLVEKVTEAVKETTGASEEKIVVFIEEFTMR     49
                     ||||||||||||||| .|||                              
generations=1      1 MPYVTVKMLEGRTDEIFKRN------------------------------     20

P70994/1-64       50 KDHYAVAGKRLSDME     64
                                    
generations=1     20 ---------------     20

 Program: water
 Length: 20
 Identity:      18/20 (90.0%)
 Similarity:    18/20 (90.0%)
 Gaps:           1/20 ( 5.0%)
 Score: 81.0

P70994/1-64        1 MPYVTVKMLEGRTDE-QKRN     19
                     ||||||||||||||| .|||
generations=1      1 MPYVTVKMLEGRTDEIFKRN     20
Вывод: чем больше поколений, тем сильнее будут различаться последовательности. Различие можно уменьшить, уменьшая вероятность изменения остатка.

Время эволюции

Для 1000 поколений примерно 21 день, для 10000 поколений - 208 дней.

Я провела выравнивание полноразмерного мутанта с вероятностью изменения остатка 0,00001, вероятностью замены остатка 0,8, числом поколений – 10000. Стандартные параметры при использовании программ needle и water не были изменены, выравнивание вручную проводилось с помощью JalView.

Identity: 50/65 = 79.2%
Similarity:    50/65 = 76.9%
 Program: needle

 Length: 65
 Identity:      50/65 (76.9%)
 Similarity:    50/65 (76.9%)
 Gaps:           3/65 ( 4.6%)
 Score: 199.0
P70994/1-64        1 MPYVTVKMLEGRTDEQKRNLVEKVTEAVKETTGASEE-KIVVFIEEFTMR     49
                     ||||||.||| ||..||||||||||||||.||...|| |||.|||.|||.
generations=1      1 MPYVTVCMLE-RTTTQKRNLVEKVTEAVKWTTHMDEEQKIVGFIEVFTMD     49

P70994/1-64       50 KDHYAVAGKRLSDME     64
                     ||.|||.|| |||||
generations=1     50 KDQYAVCGK-LSDME     63



 Program: water
 
 Length: 65
 Identity:      50/65 (76.9%)
 Similarity:    50/65 (76.9%)
 Gaps:           3/65 ( 4.6%)
 Score: 199.0
 


P70994/1-64        1 MPYVTVKMLEGRTDEQKRNLVEKVTEAVKETTGASEE-KIVVFIEEFTMR     49
                     ||||||.||| ||..||||||||||||||.||...|| |||.|||.|||.
generations=1      1 MPYVTVCMLE-RTTTQKRNLVEKVTEAVKWTTHMDEEQKIVGFIEVFTMD     49

P70994/1-64       50 KDHYAVAGKRLSDME     64
                     ||.|||.|| |||||
generations=1     50 KDQYAVCGK-LSDME     63

Неудивительно, что выравнивания вручную и программами не отличаются по идентичности и сходству – у мутанта была небольшая абсолютная вероятность изменения остатка. Общий вид выравнивания также совпадает.

© Дудина Дарья. Последнее обновление 14.02.2013