Сравнение матриц аминокислотных замен
Матрицы весов аминокислотных замен при выравниваниях. На сегодняшний день разработаны и широко распространены 2 типа матриц весов аминокислотных замен. Вес замены может служить критерием оценки "удачности" выравниваний последовательностей белков и, соответственно, о возможном родстве этих белков.
Матрица BLOSUM62 разработана в 1992 (Steven Henikoff & Jorja Henikoff, PNAS, 1992) и используется при работе с последовательностями цитоплазматических белков. Для мембранных белков свойственна своеобразная структура и несколько отличающийся набор аминокислот, а также функции отдельных остатков, поэтому для этой группы матрица BLOSUM62 не используется. В 2000 году разработана матрица PHAT (PHAT: A Transmembrane-Specific Substitution Matrix ) (Pauline Ng, Jorja Henikoff, Steven Henikoff, Bioinformatics, 2000), она служит для работы с трансмембранными участками.
Первая и классическая матрица BLOSUM62 была создана на основе базы данных BLOCKS, в которой находятся множественные выравнивания последовательностей значительного множества белков (к 1992 году в базе содержались сопоставления белков из нескольких сотен семейств). В расчетах используются количества пар различных аминокислотных остатков, которые совпадают в этих выравниваниях. В блоках выравниваний могут встречаться практически идентичные последовательности, за счет которых частоты пар могут быть ошибочно «сдвинуты». Во-избежании этого последовательности на заданном % идентичности кластеризуют, а порог указывают в названии матрицы. В данном случае порог кластеризации – 62 %.
К настоящему времени BLOCKS значительно пополнилась, в связи с чем в данной работе была произведена реконструкция BLOSUM62 с использованием данных последней версии BLOCKS.
В работе было проанализировано различие между значениями весов замен аргинина на другие аминокислоты и на саму себя для перечисленных матриц (BLOSUM62 – классической и реконструированной – и PHAT). Результаты можно увидеть в таблице 1.
Таблица 1. Значения весов замен аргинина матриц BLOSUM62 (классической и реконструированной) и PHAT.
АМК |
BLOSUM62 |
Реконструированная BLOSUM62 |
PHAT_T75_B73 |
|
Gly - | G | -2 | -2.32 | -5 |
Pro - | P | -2 | -1.24 | -7 |
Cys - | C | -3 | -3.00 | -8 |
Ser - | S | -1 | -1.12 | -6 |
Thr - | T | -1 | -1.08 | -6 |
Asn - | N | 0 | -0.68 | -3 |
Gln - | Q | 1 | 1.08 | -2 |
Asp - | D | -2 | -1.41 | -7 |
Glu - | E | 0 | -0.14 | -6 |
His - | H | 0 | -0.11 | -4 |
Arg - | R | 5 | 5.51 | 9 |
Lys - | K | 2 | 2.41 | -1 |
Ala - | A | -1 | -1.51 | -6 |
Met - | M | -1 | -1.91 | -6 |
Ile - | I | -3 | -2.60 | -6 |
Leu - | L | -2 | -2.08 | -6 |
Val - | V | -3 | -2.52 | -7 |
Phe - | F | -3 | -2.66 | -7 |
Trp - | W | -3 | -1.24 | -7 |
Tyr - | Y | -2 | -1.66 | -6 |
Выводы
Сравнение "веса" замен остатков аргинина на другие аминокислоты и на самих себя
1. Общий случай. В общем случае значения классической и реконструированной матриц BLOSUM62 весьма близки, что связано их построением на основе информации из базы данных BLOCKS. Некоторые различия могут быть вызваны использованием для создания новой матрицы последней версии BLOCKS. Значения матрицы PHAT могут отличаться от BLOSUM на несколько единиц, что связано с использованием PHAT в основном при работе с мембранными белками, для которых частота встречаемости аминокислот несколько отличается от таковой для цитоплазматических белков.
2. Вес замены аргинина на самого себя. Аргинин имеет положительно заряженную R-группу, благодаря которой часто играет роль в формировании третичной структуры белка и выполнении последним его функции. Часто аргинин встречается в мембранных белках и выполняет в них важную роль (например, в роторной мембранной АТФ-синтазе встречаемость аргинина велика, остатки аргинина напрямую участвуют в синтезе АТФ), поэтому его замена на самого себя в матрице PHAT оценивается бо'льшим весом (9), чем в BLOSUM (5).
3. Вес замены аргинина на аминокислоты с близкими химическими свойствами. Помимио аргинина положительно заряженные R-группы имеют лизин (К) и гистидин (H), что обуславливает их схожие химические свойства. В связи с этим вес замены остатков аргинина на указанные аминокислоты не сказываетс я плохо на оценке "удачности" выравниваний (в основном вес используют именно в качестве такого критерия). Замены аргинина на лизин по матрице BLOSUM62: 2, по PHAT : -1; замены на гистидин - по BLOSUM62: 0, по PHAT : -4 (то есть наиболее неудачной заменой из перечисленных явялется последняя - остатка аргинина на гистидин в мембранных белках).
4. Вес замены аргинина на аминокислоты с другими функциональными группами. Интересно рассмотреть вес замен с наибольшими по модулю отрицательными значениями, т. е. вес наиболее "непряитных" и, соответственно, наименее часто встречаемых в природе замен. Для мембранных белков искомым значением является "-8" - вес замены аргинина на цистеин (С). В самом деле, природа и функции (очевидно, особенно в мембранных белках) этих аминокислот очень различны, с чем связан такой вес. Следующее малое значение веса в матрице PHAT - "-7" - соответствует аминоксилотам группы с ароматическими радикалами - фенилаланин (F) и триптофан (W), а также валину (V). В матрице BLOSUM62 заменам аргинина на эти же аминокислоты соответствуют также наименьшие значения веса - "-3", что говорит о том, что такие замены равносильно плохи как для мембранных, так и для цитоплазматических белков.
Сравнение выравниваний, полученных для коротких мутантов вручную и построенных классическими алгоритмами Нидлмана-Вунша и Смита-Ватерманан
Работа включает в себя сравнение нескольких по-разному реализованных выравниваний мутантных частей белка PDXS_BACSU (пептидов длиной 20 аминокислот) и исходной последовательностью.
Мутантный пептид может содержать различное число аминокислот, отличающихся от исходных. Специально написанный скрипт включает в себя параметры, которые определяют это число. Это такие параметры, как вероятность изменения остатка (моделирующая «ошибку» ДНК-полимеразы при транскрипции; так может быть вызвана не синонимичная замена, делеция или инсерция аминокислот) и вероятность замены остатка в случае, если данная позиция будет изменена. Так были получены 3 мутантные последовательности, созданные при значениях параметров скрипта, указанных в таблице 2.
Таблица 2. Значения параметров для мутантных последовательностей пептидов.
Параметр | Мутант 1 | Мутант 2 | Мутант 3 |
Вероятность изменения остатка (моделирующая "ошибку" ДНК-полимеразы) | 0.6 | 0.6 | 0.4 |
Вероятность замены остатка в случае, если данная позиция будет изменена | 0.6 | 0.8 | 0.8 |
Автоматическое выравнивание. Для парного выравнивания последовательностей белков используют программы, основанные на различных алгоритмах. Далее приведено краткое описание алгоритмов Нидлмана-Вунша, Смита-Ватермана. Оба эти алгоритма для выравнивания белковых последовательностей используют матрицы замен аминокислот через подсчет общего веса выравнивания.
Алгоритм Нидлмана-Вунша. Осуществляет глобальные выравнивания за счет сравнивания полноразмерных последовательностей. Реализуется при работе команды команды «needle» пакета EMBOSS.
Алгоритм Смита-Ватермана. Осуществляет локальное выравнивание белков за счет поиска наиболее сходных участков последовательностей. Реализуется при работе команды «water» пакета EMBOSS.
Важным критерием при анализе результатов выравниваний является наличие среди последних гэпов. Гэпы означают пропуск одного остатка в одной из последовательностей. Чтобы учесть их количество в весе выравнивания в каждом случае за один гэп начисляется определенный штраф. Этот штраф – изменяемый параметр алгоритмов. По умолчанию за вставку гэпа начисляется штраф 10 (значения можно специально менять от 1 до 100) (параметр "-gapopened" в needle). За каждый гэп, стоящий рядом с другим начисляется меньший штраф – по умолчанию 0.5 (значения можно менять от 1 до 10) (параметр "-gapextend" в needle).
Выравнивание вручную. Для выравнивания вручную использовалась программа JalView.
Результаты. В структуру результатов, полученных для каждого мутатнта, входят: стандратные критерии для выравнивания вручную, данные needle, данные water. Стандартные критерии:
- Длина выравнивания (lenght)
- Процент идентичности (identity) (по формуле M=100% * 1/L * N; где L – длина последовательности (20 аминокислот), N – число совпавших пар)
- Процент сходства (similarity), подсчет по формуле аналогичной для подсчета с процентом идентичности, при допущении, что некоторые замены могут считать равносильными исходным аминокислотам, а именно было выбрано разделение аминокислот по особенностям бокового радикала. Замены аминокислот одной группы в данном случае заменами не считались.
- Вес выравнивания (score) по матрице BLOSUM62 (составляет сумму значений для каждой пары аминокислот из выравнивания).
Мутант 1. Вероятность изменения остатка мутанта – 0.6, вероятность замены остатка в случае изменения позиции – 0.6.
I. Выравнивание вручную
Процент сходства: 50 % (10 аминокислотных остатков).
Процент идентичности: 55 % (11 аминокислотных остатков). Здесь происходит замена аминокислот одной группы E (глутаминовая кислота) на D (аспарагиновая кислота).
Вес выравнивания: 18.
Область выравнивания представлена на рисунке 1.
Рис. 1. Область выравнивания мутированного участка с исходной последовательностью белка: 172-191 аминокислотные остатки. Вероятность изменения остатка мутанта – 0.6, вероятность замены остатка в случае изменения позиции – 0.6.
II. Выравнивание с помощью needle (алгоритм Нидлмана-Вунша)
Length: 294
Identity: 10/294 ( 3.4%)
Similarity: 11/294 ( 3.7%)
Gaps: 274/294 (93.2%)
Score: 20.0
Ниже представлена часть выравнивания полноразмерных последовательностей: строка исходной последовательноси с отстатками 151-200.
generations=1 1 ---------------------IVSVAYSEWDTRTEAK-LAAH-------- 20 ...||.||.:..|||| |.|. PDXS_BACSU 151 EPGTGNIVEAVRHMRKVNAQVRKVVAMSEDELMTEAKNLGAPYELLLQIK 200
III. Выравнивание с помощью water (алгоритм Смита-Ватермана)
Length: 13
Identity: 8/13 (61.5%)
Similarity: 9/13 (69.2%)
Gaps: 0/13 ( 0.0%)
Score: 31.0
Ниже представлен результат выравнивания - остатки исходной последовательности 111-128.
generations=1 4 VAYSEWDTRTEAK 16 ||.||.:..|||| PDXS_BACSU 175 VAMSEDELMTEAK 187
Мутант 2. Вероятность изменения остатка мутанта – 0.6, вероятность замены остатка в случае изменения позиции – 0.8.
I. Выравнивание вручную
Процент идентичности: 30 %.
Процент сходства: 50%.
Вес выравнивания: 2.
Область выравнивания представлена на рисунке 2.
Рис. 2. Область выравнивания мутированного участка с исходной последовательностью белка: 259-278 аминокислотные остатки. Вероятность изменения остатка мутанта – 0.6, вероятность замены остатка в случае изменения позиции – 0.8.
II. Выравнивание с помощью needle (алгоритм Нидлмана-Вунша)
Length: 295
Identity: 10/295 ( 3.4%)
Similarity: 10/295 ( 3.4%)
Gaps: 276/295 (93.6%)
Score: 16.0
Ниже представлена часть выравнивания полноразмерных последовательностей: строка исходной последовательноси с отстатками 251-294.
generations=1 1 ---------QSKLHAETASKEGFAAMKLW---------------- 20 ..||.|| .|||...|||.. PDXS_BACSU 251 IVEATTHFTDYKLIAE-LSKELGTAMKGIEISNLLPEQRMQERGW 294
III. Выравнивание с помощью water (алгоритм Смита-Ватермана)
Length: 16
Identity: 10/16 (62.5%)
Similarity: 10/16 (62.5%)
Gaps: 1/16 ( 6.2%)
Score: 25.0
Ниже представлен результат выравнивания - остатки исходной последовательности 262-276.
generations=1 3 KLHAETASKEGFAAMK 18 ||.|| .|||...||| PDXS_BACSU 262 KLIAE-LSKELGTAMK 276
Мутант 3. Вероятность изменения остатка мутанта – 0.4, вероятность замены остатка в случае изменения позиции – 0.8.
I. Выравнивание вручную
Процент идентичности: 50%.
Процент сходства: 50 %. Число аналогичное проценту сходства объясняется работой скрипта (случайным вырезанием 20-аминокислотного пептида и заданными параметрами).
Вес выравнивания: 37.
Рис. 3. Область выравнивания мутированного участка с исходной последовательностью белка: 110-129 аминокислотные остатки. Вероятность изменения остатка мутанта – 0.4, вероятность замены остатка в случае изменения позиции – 0.8.
II. Выравнивание с помощью needle (алгоритм Нидлмана-Вунша)
Length: 295
Identity: 14/295 ( 4.7%)
Similarity: 14/295 ( 4.7%)
Gaps: 276/295 (93.6%)
Score: 65.0
Ниже представлена часть выравнивания полноразмерных последовательностей: строка исходной последовательноси с отстатками 101-149.
generations=1 1 ---------TDEEFHLNKNEVIQQPRVCG--------------------- 20 .|||||||||| ...|.||| PDXS_BACSU 101 IDESEVLTPADEEFHLNKNE-YTVPFVCGCRDLGEATRRIAEGASMLRTK 149
III. Выравнивание с помощью water (алгоритм Смита-Ватермана)
Length: 19
Identity: 14/19 (73.7%)
Similarity: 14/19 (73.7%)
Gaps: 1/19 ( 5.3%)
Score: 65.0
Ниже представлен результат выравнивания - остатки исходной последовательности 111-128.
generations=1 2 DEEFHLNKNEVIQQPRVCG 20 |||||||||| ...|.||| PDXS_BACSU 111 DEEFHLNKNE-YTVPFVCG 128
Обсуждение и выводы
На примере выравниваний мутантных пептидов с исходными последовательностями показано, что результаты работы алгоритмов Нидлмана-Вунша и Ватермана-Смита часто будут сходными. В указанном случае они показали идентичные резульаты. Также отметим, что с помощью выравнивания вручную были фактически "верно" найдены участки, где вес выравниваний наибольший. Номера начал и концов фрагментов исходной последовательности при выравнивании:
- Мутант 1. Вручную: 173-191; water: 175-187
- Мутант 2. Вручную: 259-278; water: 262-276
- Мутант 3. Вручную: 110-129; water: 111-128
Как было описано ранее, каждый мутантный пептид был создан с помощью задания различных пар значений для двух параметров. Первый определяет вероятность изменения остатка (в том числе его делецию или инсерцию нового), т.е. изменение исходной позиции. Второй же параметр обеспечивает искусственное мутирование последовательности с определенной вероятностью замены одного остатка на другой.
Так наименьшие изменения должен был получить пептид 3 (параметры 0.4, 0.8), который был мутирован наиболее слабым образом. Наибольшие отличия от материнской последовательности должен был приобрести пептид 1 (0.6. 0.6), для которого были выбраны наиболее жесткие параметры мутирования.
Тем не менее, для выравниваний с исходной аминокислотной последовательности с пептидами 1 и 3 вручную процент идентичности не различается (50%), а в проценте сходства выравнивание 3 (50%) даже уступает выравниванию 1 (55%). Это может объясняться тем, что вручную было выбрано не слишком удачное выравнивание. Следует обратить внимание на то, что при не автоматическом выравнивании не были использованы гэпы в силу трудности поиска удачных мест вручную. При успешной вставке гэпов вес выравниваний может увеличиваться за счет большего количества совпадений аминокислот, которое может перекрывать штрафы за гэпы. Посмотрим также на вес выравниваний. Противоречие в данном случае исчезает: выравнивание 3 имеет значительно больший вес (37), чем выравнивание 1 (18) (значение веса выравнивания было описано выше).
Для выравнивания 2 низок процент идентичности с исходной последовательностью. Это также может иметь связь с не самым удачным вариантом выравнивания вручную.
Автоматические выравнивания с расставленными гэпами закономерно дают больший вес, что видно из таблицы 3. При этом сохраняется соответствие с рассуждениями: для выравнивания 3 мы обнаруживаем набольшой вес (65), для выравнивания 2 - наименьший (25).
Автоматическое выравнивание в данной работе оказалось более предпочтительным, чем выравнивание вручную.
Таблица 3. Сравнение параметров автоматического выравнивания и выравнивания вручную.
Выравнивание вручную | Автоматическое выравнивание | ||||||
Пептид | Идентичность (%) | Сходство (%) | Вес | Идентичность (%) | Сходство (%) | Вес | |
1 | 50 | 55 | 18 | 61.5 | 69.2 | 31 | |
2 | 30 | 50 | 2 | 62.5 | 62.5 | 25 | |
3 | 50 | 50 | 37 | 73.7 | 73.7 | 65 |