Парные выравнивания белков. Применение алгоритмов парных выравниваний к белку OXDC_BACSU

Сравнение матриц аминокислотных замен

Для того, чтобы выбрать из нескольких выравниваний лучшее, подсчитываются их веса, чем вес больше, тем выравнивание лучше (на самом деле, выравнивание с наибольшим весом не всегда является самым биологически адекватным, это сильно зависит от выбора параметров). Для расчёта веса выравнивания используются матрицы аминокислотных замен, содержащие числа, характеризующие вероятность замены аминокислоты на другую или саму на себя (отсутствие замены). Если такая вероятность больше случайной, то значение положительно. Оно равно нулю, если вероятность замены не отличается от случайной, и отрицательно, если замена происходит реже предполагаемого. Числа в матрице представляют собой логарифмы по основанию два от отношений наблюдаемой и ожидаемой вероятностей для каждого типа замен - пользоваться напрямую отношениями вероятностей было бы неудобно.
Для построения матриц аминокислотных замен используются базы множественных выравниваний. Для цитоплазматических белков наиболее популярна матрица BLOSUM62, построенная в 1992 по базе данных BLOCKS (скачать последнюю версию), которая содержит блоки - локальные множественные выравнивания, не имеющие гэпов (пропусков). Здесь можно узнать больше о том, как это было сделано.
Если в выравнивании много раз повторяются почти одинаковые последовательности, частоты несинонимичных замен аминокислот будут сильно занижены, поэтому сильно схожие последовательности кластеризуют - рассматривают как одну. В BLOSUM62 кластеризованы все последовательности, идентичные более чем на 62%. Для мембранных белков применение этой матрицы некорректно, для них была составлена собственная матрица PHAT.

В этой работе я произвела построение новой матрицы на основании последней версии BLOCKS с таким же порогом кластеризации, как у BLOSUM62. Это делалось так. Результаты сравнения её значений для треонина с таковыми из BLOSUM62 и PHAT_T75_B73 приведены в таблице 1.

THR

GPCSTNQDEHRKAMILVFWY
GlyProCysSerThrAsnGlnAspGluHisArgLysAlaMetIleLeuValPheTrpTyr
PHAT_T75_B73-1-4-113-1-3-5-5-4-6-600-1-10-2-7-3
BLOSUM62-2-1-1150-1-1-1-2-1-10-1-1-10-2-2-2
my matrix-2-1-12500-1-1-1-1-100-1-10-2-2-2
Табл.1 Сравнение матриц аминокислотных замен для Trh
Отличающиеся от BLOSUM62 значения помечены более тёмным цветом.

Общие замечания:
Для матрицы PHAT в целом характерны меньшие значения для всех несинонимичных замен. Скорее всего, тому две причины:

Как отличаются величины замены аминокислоты на саму себя? Почему?
Для реконструированной матрицы и BLOSUM62 величины не отличается, для PHAT эта величина меньше, так как треонин не очень сильно гидрофилен и имеет схожую с некоторыми "гидрофобными" аминокислотами геометрию, и, кроме того, не очень уникален и по химическим свойствам радикала - так, аминокислота серин имеет весьма похожие химические свойства.

Как отличаются величины замены аминокислоты на близкие по химическим свойствам? Почему?
Слегка отличаются для серина и глутамина, отличие в два или менее раз может объясняться сильным пополнением базы BLOCKS за последние 11 лет и, соответственно, небольшим изменением частот встречаемости аминокислотных остатков, а также разницей в округлении при составлении матриц. Замена треонина на очень похожий серин - одна из немногих несинонимичных, имеющих наиболее положительные значения.

Как отличаются величины замены аминокислоты на аминокислоты из других функциональных групп? Почему?
Также незначительно, различия вероятно объясняются теми же причинами, что и отличия величин для замен на схожие аминокислотные остатки. В целом, значительных расхождений между двумя матрицами для цитоплазматических белков не обнаружено. Причины отличий с PHAT обсуждаются выше.

Сравнение выравниваний, полученных для коротких мутантов вручную и построенных классическими алгоритмами Нидлмана-Вунша и Смита-Ватермана

В качестве рабочего материала на основании последовательности оксалат-декарбоксилазы с помощью скрипта evolve_protein.pl были получены три коротких (20 амк) "мутантных" участка. Скрипт моделирует эволюцию белковых последовательностей в результате накопления случайных мутаций из-за ошибок ДНК-полимеразы и имеет следующие параметры:
Параметры, при которых получены "мутанты": (c=0,6 r=0,6) для первого, (c=0,6 r=0,8) для второго и (c=0,4 r=0,8) для третьего. Эти последовательности были выровнены с исходной тремя способами: вручную и при помощи алгоритмов Смита-Ватермана и Нидлмана-Вунша (результаты см. в таблице 2).

Алгоритм Нидлмана-Вунша построения парных выравниваний, реализуемый программой needle пакета EMBOSS ищет наилучшее глобальное выравнивание двух последовательностей - то есть выравнивание на протяжении всей их длины. Алгоритм Смита-Ватермана построения парных выравниваний, реализуемый программой water пакета EMBOSS ищет наилучшее локальное выравнивание. Наилучшее выравнивание выбирается по максимальному весу.
Параметрами для water являются:

  1. "-gapopen" - штраф за открытие гэпа, число от 0.000 до 100.000. По умолчанию - 10.
  2. "-gapextend" - штраф за подолжение гэпа, число от 0.000 до 10.000. По умолчанию - 0.5.
  3. "-datafile" - используемая матрица весов аминокислотных замен, по которой алгоритмы считают веса выравниваний. По умолчанию - EBLOSUM62 для белков, EDNAFULL for ДНК.
Параметры для needle - те же, что и для water, а также:
  1. "-endweight" - при подсчёте веса выравнивания учитывать концевые гэпы
  2. "-endopen" - штраф за открытие концевого гэпа (число от 1.0 до 100.0)
  3. "-endextend" - штраф за продолжение концевого гэпа (число от 1.0 до 10.0)
Ручное выравниваниеneedlewater
Первый мутант
(0.6,0.6)
align1
Identity: 60%
Similarity: 65-75%
Weight: 44
needle1
Identity: 3.1% (60%)
Similarity: 3.1% (60%)
Weight:44
water1
Identity: 66.7%
Similarity: 66.7%
Weight: 46
Length:18
Второй мутант
(0.6,0.8)
align1
Identity: 38.09%
Similarity: 38.09%
Weight: 16
needle2
Identity: 2.6% (41.67%)
Similarity: 2.6% (41.67%)
Weight: 19.5
water2
Identity: 66.7%
Similarity: 66.7%
Weight: 30
Length:12
Третий мутант
(0.4,0.8)
align1
Identity: 61.9%
Similarity: 66.7%
Weight: 60
needle3
Identity: 3.4%(61.9%)
Similarity: 3.4%(61.9%)
Weight: 60
water3
Identity: 61.9%
Similarity: 61.9%
Weight: 60
Length:21
Таблица 2. Результаты выравниваний.
Для needle в скобках приведены идентичность и сходство в пересчёте собственно на длину выравнивания без учёта "концов" исходной последовательности

Комментарии к таблице: Для первой последовательности все три выравнивания идентичны, за исключением того, что программа water отрезала "неугодный" концевой участок и выравнивание имеет длину 18. Результаты выравнивания программой water второй последовательности с исходной идентичны участкам двух выравниваний, выполненных другими способами. Однако, в отличии от ручного выравнивания, в том, что сделано программой needle мы имеем длинный гэп и ещё две совпадающие буквы в результате его вставки. Такое выравнивание имеет больший вес. Однако для такого маленького участка не очевидно, какое из двух выравниваний имеет большую биологическую целесобразность, с одной стороны, гэпы в несколько аминокислот вероятнее появляются в результате проскока полимеразы, чем одиночные, но так оказываются дополнительно выровнены только два концевых аминокислотных остатка, вероятность, что они являются результатом замены других амк на лейцин также достаточно велика. В третьем случае мы видим практически идентичные выравнивания, отличающиеся местом вставки гэпа, но не отличающиеся весом. Здесь последовательность настолько хорошо выравнивается, что программа water не стала ничего отрезать от маленькой последовательности. В целом, результаты использования всех трёх способов довольно мало отличаются, а места выравнивания при ручном способе подобраны правильно.