Парные выравнивания белков. Применение алгоритмов парных выравниваний к белку OXDC_BACSU
Сравнение матриц аминокислотных замен
Для того, чтобы выбрать из нескольких выравниваний лучшее, подсчитываются их веса, чем вес больше, тем выравнивание лучше (на самом деле, выравнивание с наибольшим весом не всегда является самым биологически адекватным, это сильно зависит от выбора параметров). Для расчёта веса выравнивания используются матрицы аминокислотных замен, содержащие числа, характеризующие вероятность замены аминокислоты на другую или саму на себя (отсутствие замены). Если такая вероятность больше случайной, то значение положительно. Оно равно нулю, если вероятность замены не отличается от случайной, и отрицательно, если замена происходит реже предполагаемого. Числа в матрице представляют собой логарифмы по основанию два от отношений наблюдаемой и ожидаемой вероятностей для каждого типа замен - пользоваться напрямую отношениями вероятностей было бы неудобно.Для построения матриц аминокислотных замен используются базы множественных выравниваний. Для цитоплазматических белков наиболее популярна матрица BLOSUM62, построенная в 1992 по базе данных BLOCKS (скачать последнюю версию), которая содержит блоки - локальные множественные выравнивания, не имеющие гэпов (пропусков). Здесь можно узнать больше о том, как это было сделано.
Если в выравнивании много раз повторяются почти одинаковые последовательности, частоты несинонимичных замен аминокислот будут сильно занижены, поэтому сильно схожие последовательности кластеризуют - рассматривают как одну. В BLOSUM62 кластеризованы все последовательности, идентичные более чем на 62%. Для мембранных белков применение этой матрицы некорректно, для них была составлена собственная матрица PHAT.
В этой работе я произвела построение новой матрицы на основании последней версии BLOCKS с таким же порогом кластеризации, как у BLOSUM62. Это делалось так. Результаты сравнения её значений для треонина с таковыми из BLOSUM62 и PHAT_T75_B73 приведены в таблице 1.
THR | G | P | C | S | T | N | Q | D | E | H | R | K | A | M | I | L | V | F | W | Y |
Gly | Pro | Cys | Ser | Thr | Asn | Gln | Asp | Glu | His | Arg | Lys | Ala | Met | Ile | Leu | Val | Phe | Trp | Tyr | |
PHAT_T75_B73 | -1 | -4 | -1 | 1 | 3 | -1 | -3 | -5 | -5 | -4 | -6 | -6 | 0 | 0 | -1 | -1 | 0 | -2 | -7 | -3 |
BLOSUM62 | -2 | -1 | -1 | 1 | 5 | 0 | -1 | -1 | -1 | -2 | -1 | -1 | 0 | -1 | -1 | -1 | 0 | -2 | -2 | -2 |
my matrix | -2 | -1 | -1 | 2 | 5 | 0 | 0 | -1 | -1 | -1 | -1 | -1 | 0 | 0 | -1 | -1 | 0 | -2 | -2 | -2 |
Отличающиеся от BLOSUM62 значения помечены более тёмным цветом.
Общие замечания:
Для матрицы PHAT в целом характерны меньшие значения для всех несинонимичных замен. Скорее всего, тому две причины:
- более высокая консервативность трансмембранных белков (гидрофобное окружение внутренней части бифосфолипидного слоя вводит явное ограничение на замены с приобретением гидрофильности, сильно гидрофильные аминокислоты встречаются редко и в наиболее критических позициях, потому величины замен их самих на себя велики)
- при построении этой матрицы был использован более высокий порог кластеризации 75%, то есть в базе данных, по которой составлена PHAT, число сильно похожих последовательностей было выше, а несинонимичные замены встречались, соответственно, реже.
Как отличаются величины замены аминокислоты на саму себя? Почему?
Для реконструированной матрицы и BLOSUM62 величины не отличается, для PHAT эта величина меньше, так как треонин не очень сильно гидрофилен и имеет
схожую с некоторыми "гидрофобными" аминокислотами геометрию, и, кроме того, не очень уникален и по химическим свойствам радикала - так, аминокислота серин имеет весьма похожие
химические свойства.
Как отличаются величины замены аминокислоты на близкие по химическим свойствам? Почему?
Слегка отличаются для серина и глутамина, отличие в два или менее раз может объясняться сильным пополнением базы BLOCKS за последние 11 лет и, соответственно,
небольшим изменением частот встречаемости аминокислотных остатков, а также разницей в округлении при составлении матриц.
Замена треонина на очень похожий серин - одна из немногих несинонимичных, имеющих наиболее положительные значения.
Как отличаются величины замены аминокислоты на аминокислоты из других функциональных групп? Почему?
Также незначительно, различия вероятно объясняются теми же причинами, что и отличия величин для замен на схожие аминокислотные остатки.
В целом, значительных расхождений между двумя матрицами для цитоплазматических белков не обнаружено. Причины отличий с PHAT обсуждаются выше.
Сравнение выравниваний, полученных для коротких мутантов вручную и построенных классическими алгоритмами Нидлмана-Вунша и Смита-Ватермана
В качестве рабочего материала на основании последовательности оксалат-декарбоксилазы с помощью скрипта evolve_protein.pl были получены три коротких (20 амк) "мутантных" участка. Скрипт моделирует эволюцию белковых последовательностей в результате накопления случайных мутаций из-за ошибок ДНК-полимеразы и имеет следующие параметры:- "-i", "-o" файл с исходной последовательностью, файл с результатом
- "-c" вероятность возникновения мутации на месте конкретной аминокислоты
- "-r" вероятность того, что произошедшая мутация будет именно заменой на другую аминокислоту, а не инсерцией или делецией
- "-f" создание полноразмерных "мутантов"
- "-t" число мутантных последовательностей, создаваемых в результате работы скрипта
- "-g" число поколений (проходов скрипта по последовательности)
Параметры, при которых получены "мутанты": (c=0,6 r=0,6) для первого, (c=0,6 r=0,8) для второго и (c=0,4 r=0,8) для третьего. Эти последовательности были выровнены с исходной тремя способами: вручную и при помощи алгоритмов Смита-Ватермана и Нидлмана-Вунша (результаты см. в таблице 2).
Алгоритм Нидлмана-Вунша построения парных выравниваний, реализуемый программой needle пакета EMBOSS ищет наилучшее глобальное выравнивание двух последовательностей - то есть выравнивание на протяжении всей их длины.
Алгоритм Смита-Ватермана построения парных выравниваний, реализуемый программой water пакета EMBOSS ищет наилучшее локальное выравнивание.
Наилучшее выравнивание выбирается по максимальному весу.
Параметрами для water являются:
- "-gapopen" - штраф за открытие гэпа, число от 0.000 до 100.000. По умолчанию - 10.
- "-gapextend" - штраф за подолжение гэпа, число от 0.000 до 10.000. По умолчанию - 0.5.
- "-datafile" - используемая матрица весов аминокислотных замен, по которой алгоритмы считают веса выравниваний. По умолчанию - EBLOSUM62 для белков, EDNAFULL for ДНК.
- "-endweight" - при подсчёте веса выравнивания учитывать концевые гэпы
- "-endopen" - штраф за открытие концевого гэпа (число от 1.0 до 100.0)
- "-endextend" - штраф за продолжение концевого гэпа (число от 1.0 до 10.0)
Ручное выравнивание | needle | water | |
Первый мутант (0.6,0.6) | Identity: 60% Similarity: 65-75% Weight: 44 | Identity: 3.1% (60%) Similarity: 3.1% (60%) Weight:44 | Identity: 66.7% Similarity: 66.7% Weight: 46 Length:18 |
Второй мутант (0.6,0.8) | Identity: 38.09% Similarity: 38.09% Weight: 16 | Identity: 2.6% (41.67%) Similarity: 2.6% (41.67%) Weight: 19.5 | Identity: 66.7% Similarity: 66.7% Weight: 30 Length:12 |
Третий мутант (0.4,0.8) | Identity: 61.9% Similarity: 66.7% Weight: 60 | Identity: 3.4%(61.9%) Similarity: 3.4%(61.9%) Weight: 60 | Identity: 61.9% Similarity: 61.9% Weight: 60 Length:21 |
Для needle в скобках приведены идентичность и сходство в пересчёте собственно на длину выравнивания без учёта "концов" исходной последовательности
Комментарии к таблице: Для первой последовательности все три выравнивания идентичны, за исключением того, что программа water отрезала "неугодный" концевой участок и выравнивание имеет длину 18. Результаты выравнивания программой water второй последовательности с исходной идентичны участкам двух выравниваний, выполненных другими способами. Однако, в отличии от ручного выравнивания, в том, что сделано программой needle мы имеем длинный гэп и ещё две совпадающие буквы в результате его вставки. Такое выравнивание имеет больший вес. Однако для такого маленького участка не очевидно, какое из двух выравниваний имеет большую биологическую целесобразность, с одной стороны, гэпы в несколько аминокислот вероятнее появляются в результате проскока полимеразы, чем одиночные, но так оказываются дополнительно выровнены только два концевых аминокислотных остатка, вероятность, что они являются результатом замены других амк на лейцин также достаточно велика. В третьем случае мы видим практически идентичные выравнивания, отличающиеся местом вставки гэпа, но не отличающиеся весом. Здесь последовательность настолько хорошо выравнивается, что программа water не стала ничего отрезать от маленькой последовательности. В целом, результаты использования всех трёх способов довольно мало отличаются, а места выравнивания при ручном способе подобраны правильно.