Парные выравнивания белков. Применение алгоритмов парных выравниваний к белку KAD_BACSU
Сравнение матриц аминокислотных замен
Сравним величины замен глутамина на разные аминокислоты в разных матрицах аминокислотных замен, а именно: BLOSUM62, PHAT_T75_B73 и матрице, восстановленной в первом задании.
Матрица BLOSUM62 получена эмпирическим путем на основе базы данных Blocks в 1992 году. 62 (%) - порог кластеризации, который нужен, чтобы учесть случайные сдвиги встречаемости в базе данных.
Матрица PHAT создана для трансмембранных белков в 2000 году. Эту матрицу потребовалось создавать отдельно, потому что в трансмембранных белках может быть сильно смещена встречаемость аминокислот. Это происходит, потому что в трансмембранных белках встречаются участки с повышенным содержанием определенных аминокислот, которые нужны для закрепления в мембране.
Моя матрица реконструирована аналогично матрице BLOSUM62 на основании более новой версии Blocks. Поэтому эти две матрицы в большой мере схожи.
|
Глутамин |
Аспарагин |
Валин |
Триптофан |
Лизин |
Трехбуквенный код |
Gln |
Asn |
Val |
Trp |
Lys |
Однобуквенный код |
Q |
N |
V |
W |
K |
Величина замены в BLOSUM62 |
5 |
0 |
-2 |
-2 |
1 |
Величина замены в PHAT_T75_B73 |
9 |
2 |
-3 |
1 |
0 |
Величина замены в моей матрице |
6 |
0 |
-2 |
-2 |
1 |
Положительное значение говорит о частоте замены, отрицательное - о редкости. Ноль означает, что встречаемость укладывается в рамки статистической погрешности, то есть встречается случайно.
Видно, что значение замены глутамин-глутамин везде положительно, так как такая замен часта. Замена глутамина на аспарагин имеет везде значения большие либо равные нуля, так как аспарагин очень похож на глутамин.
Замена на валин везде имеет отрицательные значения, потому что валин гидрофобен, а глутамин - гидрофилен.
На примере триптофана видно, насколько смещена встречаемость аминокислот в трансмембранных белках.
Сравнение выравниваний, полученных для коротких мутантов вручную и построенных классическими алгоритмами Нидлмана-Вунша и Смита-Ватермана
Не так давно мною были получены мутантные участки белка KAD_BACSU, которые выравнивались с ним вручную. Теперь применим к ним алгоритмы Нидлмана-Вунша и Смита-Ватермана.
needle
Алгоритм Нидлмана-Вунша служит для построения глобальных выравниваний. Его принцип заключается в построении чего-то вроде матрицы или таблицы, на сторонах которой лежат последовательности выравниваниваемых белков. Есть неокторая стартовая точка, от которой нужно провести путь до противоположного конца матрицы. Стартовая точка - сопоставление первых аминокислот,
здесь, как и везде, возможно 3 варианта: гэп в перовм белке, гэп в другом белке или замена. У каждого из этих вариантов есть свое значение, которое берется из матрицы (изначально за совпадение аминокислот брали +1, а за несовпадение - 1).
Есть стандартные параметры для значений гэпов: gapopen = 10.0 (штраф за открытие), gapextend = 0,5 (штраф за продолжение).
Для построения выравнивания нужно пройти путь, сумма значений на котором наибольшая. Этот путь запоминается и по нему восстанавливается выравнивание. Так работает команда needle.
Команда:needle sw:kad_bscsu [файл с мутантной последовательностью]
На выходе получается выравнвнивания:
KAD_BACSU 1 MNLVLMGLPGAGKGTQGERIVEDYGIPHISTGDMFRAAMKEETPLGLEAK 50
0 -------------------------------------------------- 0
KAD_BACSU 51 SYIDKGELVPDEVTIGIVKERLGKDDCERGFLLDGFPRTVAQAEALEEIL 100
0 -------------------------------------------------- 0
KAD_BACSU 101 EEYGKPIDYVINIEVDKDVLMERLTGRRICSVCGTTYHLVFNPPKTPGIC 150
0 -------------------------------------------------- 0
KAD_BACSU 151 DKDGGELYQRADDNEETVSKRLEVNMKQTQPLLDFYSEKGYLANVNGQQD 200
|||.||.||:||.|| ||.||
1 ------------------SKRPEVQMKKTQILL-FYCEK----------- 20
KAD_BACSU 201 IQDVYADVKDLLGGLKK 217
20 ----------------- 20
|
KAD_BACSU 1 MNLVLMGLPGAGKGTQGERIVEDYGIPHISTGDMFRAAMKEETPLGLEAK 50
0 -------------------------------------------------- 0
KAD_BACSU 51 SYIDKGELVPDEVTIGIVKERLGKDDCERGFLLDGFPRTVAQAEALEEIL 100
0 -------------------------------------------------- 0
KAD_BACSU 101 EEYGKPIDYVINIEVDKDVLMERLTGRRICSVCGTTYHLVFNPPKTP-GI 149
||.|:|| |.
1 ----------------------------------------FNAPQTPNGQ 10
KAD_BACSU 150 CDKDGGELYQRADDNEETVSKRLEVNMKQTQPLLDFYSEKGYLANVNGQQ 199
|...|.|:.:
11 CWWHGQEVQR---------------------------------------- 20
KAD_BACSU 200 DIQDVYADVKDLLGGLKK 217
20 ------------------ 20
|
KAD_BACSU 1 MNLVLMGLPGAGKGTQGERIVEDYGIPHIST-GDMFRAAMKE-ETPLGLE 48
:||| ||||||...| :||.
1 ---------------------------NISTRGDMFRAGSGENDTPC--- 20
KAD_BACSU 49 AKSYIDKGELVPDEVTIGIVKERLGKDDCERGFLLDGFPRTVAQAEALEE 98
20 -------------------------------------------------- 20
KAD_BACSU 99 ILEEYGKPIDYVINIEVDKDVLMERLTGRRICSVCGTTYHLVFNPPKTPG 148
20 -------------------------------------------------- 20
KAD_BACSU 149 ICDKDGGELYQRADDNEETVSKRLEVNMKQTQPLLDFYSEKGYLANVNGQ 198
20 -------------------------------------------------- 20
KAD_BACSU 199 QDIQDVYADVKDLLGGLKK 217
20 ------------------- 20
|
К ним приведены некоторые параметры (identity, similarity, вес, количество гэпов). Сравним сведения, полученные ручным выравниванием и командой needle.
Change |
Replace |
Identity (needle) |
Similarity (needle) |
Identity (вручную) |
Similarity (вручную) |
0,4 |
0,8 |
15 (6,9%) |
16 (7,4%) |
15 |
17 |
0,6 |
0,6 |
9 (4,1%) |
12 (5,5%) |
11 |
11 |
0,6 |
0,8 |
12 (5,5%) |
14 (6,4%) |
12 |
14 |
Подробнее о выравнивании вручную написано здесь.
water
Алгоритм Смита-Ватермана похож на алгортм Нидлмана-Вунша, но служит для построения локального выравнивания, то есть ищет наиболее похожий участок и выравнивает его. Для этого в матрице выравнивания стоят несколько другие числа, чем в needle.
Стандартные параметры штрафа за гэпы тут такие же, как и в needle.
KAD_BACSU 169 SKRLEVNMKQTQPLLDFYSEK 189
|||.||.||:||.|| ||.||
1 SKRPEVQMKKTQILL-FYCEK 20
|
KAD_BACSU 141 FNPPKTP-GICDKDGGEL 157
||.|:|| |.|...|.|:
1 FNAPQTPNGQCWWHGQEV 18
|
KAD_BACSU 28 HIST-GDMFRAAMKE-ETP 44
:||| ||||||...| :||
1 NISTRGDMFRAGSGENDTP 19
|
© Марк Меерсон, 2013
Последнее обновление: 05.04.2013