Выравнивание последовательностей белка

В этой работе необходимо было изучить процесс глобального и локального выравнивания белков на основе их аминокислотной последовательности.

Глобальное парное выравнивание гомологичных белков

В этой части работы было необходимо найти белки Escherichia coli и Bacillus subtilis с одинаковой мнемоникой функции и провести глобальное выравнивание. Для этого с сайта Uniprot были скачаны списки идентификаторов белков в Swiss-prot. Затем эти списки были объединены и отсортированы с помощью инструментов Excel, так что найти нужные идентификаторы стало нетрудно. Также в получившейся таблице приведены полные названия белков. Затем с помощью команды needle было произведено выравнивание 3 пар белков с одинаковой мнемоникой функций, но принадлежащих разным организмам.

Пример использования команды needle:
needle sw:P08065 sw:P0AC41 first_align.needle -auto

Результаты представлены в таблице 1.

Таблица 1. Результаты глобального выравнивания по алгоритму Нидлмана-Вунша
Protein Name ID 1 ID 2 Score Identity (%) Similarity (%) Gaps Indels
Succinate dehydrogenase flavoprotein subunit [ссылка] SDHA_BACSU SDHA_ECOLI 695.5 30.6% 46.9% 80 17
Acetolactate synthase isozyme 3 small subunit[1][ссылка] ILVH_BASCU ILVH_ECOLI 278.0 34.7% 59.5% 11 3
2-succinylbenzoate--CoA ligase [ссылка] MENE_BACSU MENE_ECOLI 426.5 27.1% 43.8% 73 15

[1] - в Bacillus subtilis этот белок называется Acetolactate synthase small subunit

Локальное парное выравнивание гомологичных белков

В этой части работы необходимо было сделать локальное выравнивание тех же белков при помощи программы water. Процент покрытия вычислялся вручную как частное длины части белка участвующей в выравнивании( вычислялось по координатам начала и конца последовательности) и длины всего белка(данные можно найти в UniProt).

Пример использования утилиты water
water sw:P37353 sw:P23971 mene water -auto

Результаты представлены в таблице 2.

Таблица 2. Результаты локального выравнивания.
Protein Name ID 1 ID 2 Score Identity (%) Similarity (%) Gaps Indels Coverage 1 Coverage 2
Succinate dehydrogenase flavoprotein subunit [ссылка] SDHA_BACSU SDHA_ECOLI 696.5 31.5% 47.9% 69 15 97.6% 98.1%
Acetolactate synthase isozyme 3 small subunit [ссылка] ILVH_BACSU ILVH_ECOLI 283.0 37.7% 64.2% 2 2 91.9% 97.0%
2-succinylbenzoate--CoA ligase [ссылка] MENE_BACSU MENE_ECOLI 434.5 27.7% 44.2% 69 14 96.0% 95.9%

Результат применения программ выравнивания к неродственным белкам

Для выравнивания негомологичных белков были выбраны пептидогликановая гликозилтрансфераза в Escherichia coli и субъединица антитерминационного белка транксрипции NusB в Bacillus subtilis. Белки сильно различаются по функции, поэтому изначально не предполагается, что они могут быть гомологичны. Результаты использования программ needle и water представлены в Таблице 3.

Таблица 3. Результаты выравнивания негомологичных белков
Тип выравнивания ID 1 ID 2 Score Identity (%) Similarity (%) Gaps Indels Coverage 1 Coverage 2
Глобальное [ссылка] RODA_ECOLI NUSB_BACSU 10.0 0.6% 1.4% 473 2 - -
Локальное [ссылка] RODA_ECOLI NUSB_BACSU 27.0 31.0% 41.4% 7 1 6.0% 22.1%

Можно заметить, что у выравниваний очень маленький вес(сравнить с трехзначными значениями для гомологичных белков примерно той же длины в 1 части работы). Также наблюдается очень низкий процент Identity и Similarity. Инделей мало, но количество гэпов очень велико(они составляют примерно 90 процентов длины выравнивания). В локальном выравнивании наблюдаются те же особенности, к тому же процент покрытия очень мал(для сравнения - в гомологичных последовательностях, как было показано ранее, процент покрытия приблизительно равен 90)
Все эти признаки указывают на то, что белки не являются родственными.

Множественное выравнивание белков

Для множественного выравнивания был выбрана 2-сукцинилбензоат-CoA лигаза (фермент, участвующий в синтезе менахинона, который также называется витамин К2). Для поиска всех идентификаторов с мнемоникой MENE была использована команда:

infoseq 'sw:mene_*' -only -name -out organisms.txt

Всего было обнаружено 49 организмов, содержащих данный фермент [ссылка на список] Затем было выбрано 7 белков для множественного выравнивания (ID белков являются ссылками на страницы белков в UniProt):

MENE_ECOLI - белок, принадлежащий Escherichia coli


MENE_BACSU - белок, принадлежащий Bacillus subtilis


MENE_GEOKA - белок, принадлежащий Geobacillus kaustophilus


MENE_STAAC - белок, принадлежащий Staphylococcus aureus (strain COL)


MENE_BACC1 - белок, принадлежащий Bacillus cereus


MENE_STAAR - белок, принадлежащий Staphylococcus aureus (strain MRSA252)


MENE_OCEIH - белок, принадлежащий Oceanobacillus iheyensis

Множественное выравнивание было построено с помощью опции Align в UniProt. Затем из базы данных был скачан fasta-файл с выравниванием. Ссылку на проект Jalview можно найти тут

Выравнивание
Рис.1 Множественное выравнивание в программе Jalview. Раскраска по проценту идентичности.

Можно сказать, что белки выровнялись хорошо, т.к.есть достаточно много идентичных или похожих участков последовательности, не очень много гэпов.
Есть полностью консервативные участки, например участок 178-183(там есть только одна замена на похожую аминокислоту), 289-292,479-483. Также консервативным участком является участок 413-424, в белке, принадлежащем E.coli, наблюдаются различия в последовательности, но это объясняется тем, что все остальные организмы весьма родственны между собой.
На участке 121-128 и 132-146 наблюдаются большие гэпы, вероятнее всего, произошла инсерция в Q5HEY2 и Q6GFR0, т.к. последовательности присутствуют только в этих белках, а организмы-хозяева этих белков принадлежат к одному семейству.Вообще, можно видеть, что Q5HEY2 и Q6GFR0 практически полностью идентичным друг другу, что оправдано, т.к. хозяева близки между собой. Менее консервативными являются участки 404-408,300-310, 12-22. В этих участках наблюдается большее количество замен на химически сходные аминокислоты.
Судя по одинаковой функции белков в организмах, а также по большому количеству схожих участков в аминокислотной последовательности, мы можем заключить, что белки являются гомологичными.

Выравнивание своего белка с его гомологом

В предыдущей работе мы изучали зеленый флюоресцирующий белок GFP_AEQVI. В этой части работы производится выравнивание с его предполагаемым гомологом B6UPG7_NEIGO, белком бактерии Neisseria gonorrhoeae. Было произведено локальное и глобальное выравнивание белков. Результаты представлены в таблице 4

Таблица 4. Результаты выравнивания предположительно гомологичных белков
Тип выравнивания ID 1 ID 2 Score Identity (%) Similarity (%) Gaps Indels Coverage 1 Coverage 2
Глобальное [ссылка] GFP_AEQVI B6UPG7_NEIGO 1268.0 99.2% 99.6% 0 0 - -
Локальное [ссылка] GFP_AEQVI B6UPG7_NEIGO 1268.0 99.2% 99.6% 0 0 100.0% 100.0%

Как можно видеть, результаты локального и глобального выравнивания совпадают, к тому же покрытие последовательностей равно 100%. Из этого следует, что локальное и глобальное выравнивание, в сущности, представляют собой одно и то же выравнивание..
Очень высокие показатели идентичности, отсутствие гэпов, большой вес выравнивания позволяют сделать вывод, что данные белки являются гомологами. Эти белки выполняют одни и те же функции в разных организмах, поэтому их можно назвать паралогами( я тут не очень понял, наверное, всё-таки нельзя, т.к. в документе по белку B6UPG7_NEIGO сказано, что это белок в плазмиде, поэтому это не эволюционное расхождение).

Параметры программ needle и water

Если не писать опцию -auto, то программы needle и water запросят несколько параметров.
Первый - это Gap Opening Penalty, то есть штраф за открытие гэпа. По умолчанию он устанавливается 10.0
Второй - это Gap Extension Penalty - штраф за продолжение гэпа на одну букву. По умолчанию он устанавливается 0.5.
Рассмотрим, почему штраф за открытие гэпа много больше, чем за его продолжение. Каждое открытие гэпа можно гарантированно рассматривать как одно эволюционное событие. Но если гэп длиной больше единицы(например длины N), мы не можем утверждать, что произошло N независимых эволюционных событий рядом друг с другом. Геном очень большой, и вероятность того, что в одном и том же месте последовательно вырезалось по одному нуклеотиду намного меньше вероятности того, что в этом участке генома за один раз вырезалось несколько нуклеотидов.
Если мы сделаем штраф за продолжение гэпа больше,чем штраф за замену аминокислоты на непохожую по химическим свойствам аминокислоту, то мы получим выравнивание с маленьким количеством многонуклеотидных гэпов, но большим количеством замен аминокислот. Сравним выравнивание белка SDHA_ECOLI и SDHA_BACSU с разными значениями Gap Extension Penalty.

Таблица 5. Выравнивание с разными значениями параметра Gap Extension Penalty.
Выравнивание Gap Opening Penalty Gap Extension Penalty Score Identity Similarity Gaps
SDHA_ECOLI и SDHA_BACSU[ссылка]. 10.0 0.5 695.5 30.6% 46.9% 80
SDHA_ECOLI и SDHA_BACSU[ссылка]. 10.0 10.0 531.0 29.8% 47.9% 40

Видно, что сильно упал вес выравнивания и количество гэпов, но параметры схожести остались примерно такими же.

Теперь сравним выравнивания с разным значением Gap Opening Penalty.

Таблица 6. Результаты выравнивания гомологичных белков с разным значением Gap Opening Penalty
Выравнивание Gap Opening Penalty Gap Extension Penalty Score Identity Similarity Gaps
SDHA_ECOLI и SDHA_BACSU[ссылка]. 10.0 0.5 695.5 30.6% 46.9% 80
SDHA_ECOLI и SDHA_BACSU[ссылка]. 1.0 0.5 1225.0 33.4% 47.4% 298

Вес выравнивания увеличился в 2 раза, а количество гэпов - в 3.5 раза. Но если сравнить последовательности в выравнивании с маленьким штрафом за открытие гэпа, то видно, что они совсем не похожи - слишком большое количество гэпов( они составляют 40.5% от длины всего выравнивания). Этот факт говорит о том, что низкий штраф приводит к появлению неоправданно большого веса, даже если выравниваются непохожие последовательности.
Для доказательства этого утверждения сравним негомологичные белки из предыдущей части работы - RODA_ECOLI и NUSB_BACSU.

Таблица 7. Результаты выравнивания негомологичных белков с разным значением Gap Opening Penalty
Выравнивание Gap Opening Penalty Gap Extension Penalty Score Identity Similarity Gaps
RODA_ECOLI и NUSB_BACSU[ссылка]. 10.0 0.5 10.0 0.6% 1.4% 473
RODA_ECOLI и NUSB_BACSU[ссылка]. 1.0 0.5 212.0 17.7% 23.0% 289

Из этой таблицы видно, что с низким значением Gap Opening Penalty даже выравнивания негомологичных белков приобретают достаточно большой вес.