В этой работе необходимо было изучить процесс глобального и локального выравнивания белков на основе их аминокислотной последовательности.
В этой части работы было необходимо найти белки Escherichia coli и Bacillus subtilis с одинаковой мнемоникой функции и провести
глобальное выравнивание. Для
этого с сайта Uniprot были скачаны списки идентификаторов белков в Swiss-prot. Затем эти списки были объединены и отсортированы
с помощью инструментов Excel, так что найти нужные идентификаторы стало нетрудно. Также в получившейся таблице приведены полные названия белков.
Затем с помощью команды needle было произведено выравнивание 3 пар белков с одинаковой мнемоникой функций, но принадлежащих разным организмам.
Пример использования команды needle:
needle sw:P08065 sw:P0AC41 first_align.needle -auto
Результаты представлены в таблице 1.
Protein Name | ID 1 | ID 2 | Score | Identity (%) | Similarity (%) | Gaps | Indels |
Succinate dehydrogenase flavoprotein subunit [ссылка] | SDHA_BACSU | SDHA_ECOLI | 695.5 | 30.6% | 46.9% | 80 | 17 |
Acetolactate synthase isozyme 3 small subunit[1][ссылка] | ILVH_BASCU | ILVH_ECOLI | 278.0 | 34.7% | 59.5% | 11 | 3 |
2-succinylbenzoate--CoA ligase [ссылка] | MENE_BACSU | MENE_ECOLI | 426.5 | 27.1% | 43.8% | 73 | 15 |
[1] - в Bacillus subtilis этот белок называется Acetolactate synthase small subunit
В этой части работы необходимо было сделать локальное выравнивание тех же белков при помощи программы water.
Процент покрытия вычислялся вручную как частное длины части белка участвующей в выравнивании( вычислялось по координатам начала и конца последовательности)
и длины всего белка(данные можно найти в UniProt).
Пример использования утилиты water
water sw:P37353 sw:P23971 mene water -auto
Результаты представлены в таблице 2.
Protein Name | ID 1 | ID 2 | Score | Identity (%) | Similarity (%) | Gaps | Indels | Coverage 1 | Coverage 2 |
Succinate dehydrogenase flavoprotein subunit [ссылка] | SDHA_BACSU | SDHA_ECOLI | 696.5 | 31.5% | 47.9% | 69 | 15 | 97.6% | 98.1% |
Acetolactate synthase isozyme 3 small subunit [ссылка] | ILVH_BACSU | ILVH_ECOLI | 283.0 | 37.7% | 64.2% | 2 | 2 | 91.9% | 97.0% |
2-succinylbenzoate--CoA ligase [ссылка] | MENE_BACSU | MENE_ECOLI | 434.5 | 27.7% | 44.2% | 69 | 14 | 96.0% | 95.9% |
Для выравнивания негомологичных белков были выбраны пептидогликановая гликозилтрансфераза в Escherichia coli и субъединица антитерминационного белка транксрипции NusB в Bacillus subtilis. Белки сильно различаются по функции, поэтому изначально не предполагается, что они могут быть гомологичны. Результаты использования программ needle и water представлены в Таблице 3.
Тип выравнивания | ID 1 | ID 2 | Score | Identity (%) | Similarity (%) | Gaps | Indels | Coverage 1 | Coverage 2 |
Глобальное [ссылка] | RODA_ECOLI | NUSB_BACSU | 10.0 | 0.6% | 1.4% | 473 | 2 | - | - |
Локальное [ссылка] | RODA_ECOLI | NUSB_BACSU | 27.0 | 31.0% | 41.4% | 7 | 1 | 6.0% | 22.1% |
Можно заметить, что у выравниваний очень маленький вес(сравнить с трехзначными значениями для гомологичных белков примерно той же длины в 1 части работы).
Также наблюдается
очень низкий процент Identity и Similarity. Инделей мало, но количество гэпов очень велико(они составляют примерно 90 процентов длины выравнивания).
В локальном выравнивании наблюдаются те же особенности, к тому же процент покрытия очень мал(для сравнения - в гомологичных последовательностях, как было
показано ранее, процент покрытия приблизительно равен 90)
Все эти признаки указывают на то, что белки не являются родственными.
Для множественного выравнивания был выбрана 2-сукцинилбензоат-CoA лигаза (фермент, участвующий в синтезе менахинона, который также называется
витамин К2). Для поиска всех идентификаторов с мнемоникой MENE была использована команда:
infoseq 'sw:mene_*' -only -name -out organisms.txt
Всего было обнаружено 49 организмов, содержащих данный фермент
[ссылка на список]
Затем было выбрано 7 белков для множественного выравнивания (ID белков являются ссылками на страницы белков в UniProt):
MENE_ECOLI - белок, принадлежащий Escherichia coli
MENE_BACSU - белок, принадлежащий Bacillus subtilis
MENE_GEOKA - белок, принадлежащий Geobacillus kaustophilus
MENE_STAAC - белок, принадлежащий Staphylococcus aureus (strain COL)
MENE_BACC1 - белок, принадлежащий Bacillus cereus
MENE_STAAR - белок, принадлежащий Staphylococcus aureus (strain MRSA252)
MENE_OCEIH - белок, принадлежащий Oceanobacillus iheyensis
Множественное выравнивание было построено с помощью опции Align в UniProt. Затем из базы данных был скачан fasta-файл с выравниванием. Ссылку на проект
Jalview можно найти тут
Можно сказать, что белки выровнялись хорошо, т.к.есть достаточно много идентичных или похожих участков последовательности, не очень много гэпов.
Есть полностью консервативные участки, например участок 178-183(там есть только одна замена на похожую аминокислоту), 289-292,479-483. Также консервативным участком
является участок 413-424, в белке, принадлежащем E.coli, наблюдаются различия в последовательности, но это объясняется тем, что все остальные организмы
весьма родственны между собой.
На участке 121-128 и 132-146 наблюдаются большие гэпы, вероятнее всего, произошла инсерция в Q5HEY2 и Q6GFR0, т.к. последовательности
присутствуют только в этих белках, а организмы-хозяева этих белков принадлежат к одному семейству.Вообще, можно видеть, что Q5HEY2 и Q6GFR0 практически полностью
идентичным друг другу, что оправдано, т.к. хозяева близки между собой.
Менее консервативными являются участки 404-408,300-310, 12-22. В этих участках наблюдается большее количество замен на химически сходные аминокислоты.
Судя по одинаковой функции белков в организмах, а также по большому количеству схожих участков в аминокислотной последовательности, мы можем заключить, что белки являются гомологичными.
В предыдущей работе мы изучали зеленый флюоресцирующий белок GFP_AEQVI. В этой части работы производится выравнивание
с его предполагаемым гомологом B6UPG7_NEIGO,
белком бактерии Neisseria gonorrhoeae. Было произведено локальное и глобальное выравнивание белков. Результаты представлены в таблице 4
Тип выравнивания | ID 1 | ID 2 | Score | Identity (%) | Similarity (%) | Gaps | Indels | Coverage 1 | Coverage 2 |
Глобальное [ссылка] | GFP_AEQVI | B6UPG7_NEIGO | 1268.0 | 99.2% | 99.6% | 0 | 0 | - | - |
Локальное [ссылка] | GFP_AEQVI | B6UPG7_NEIGO | 1268.0 | 99.2% | 99.6% | 0 | 0 | 100.0% | 100.0% |
Как можно видеть, результаты локального и глобального выравнивания совпадают, к тому же покрытие последовательностей равно 100%. Из этого
следует, что локальное и глобальное выравнивание, в сущности, представляют собой одно и то же выравнивание..
Очень высокие показатели идентичности, отсутствие гэпов, большой вес выравнивания позволяют сделать вывод, что данные белки являются
гомологами. Эти белки выполняют одни и те же функции в разных организмах, поэтому их можно назвать паралогами( я тут не очень понял,
наверное, всё-таки нельзя, т.к. в документе
по белку B6UPG7_NEIGO сказано, что это белок в плазмиде, поэтому это не эволюционное расхождение).
Если не писать опцию -auto, то программы needle и water запросят несколько параметров.
Первый - это Gap Opening Penalty, то есть штраф за открытие гэпа. По умолчанию он устанавливается 10.0
Второй - это Gap Extension Penalty - штраф за продолжение гэпа на одну букву. По умолчанию он устанавливается 0.5.
Рассмотрим, почему штраф за открытие гэпа много больше, чем за его продолжение. Каждое открытие гэпа можно гарантированно рассматривать как одно
эволюционное событие. Но если гэп длиной больше единицы(например длины N), мы не можем утверждать, что произошло N независимых эволюционных событий рядом друг
с другом. Геном очень большой, и вероятность того, что в одном и том же месте последовательно вырезалось по одному нуклеотиду намного меньше вероятности того, что в
этом участке генома за один раз вырезалось несколько нуклеотидов.
Если мы сделаем штраф за продолжение гэпа больше,чем штраф за замену
аминокислоты на непохожую по химическим свойствам аминокислоту, то мы получим выравнивание с маленьким количеством многонуклеотидных гэпов, но большим количеством
замен аминокислот. Сравним выравнивание белка SDHA_ECOLI и SDHA_BACSU с разными значениями Gap Extension Penalty.
Выравнивание | Gap Opening Penalty | Gap Extension Penalty | Score | Identity | Similarity | Gaps |
SDHA_ECOLI и SDHA_BACSU[ссылка]. | 10.0 | 0.5 | 695.5 | 30.6% | 46.9% | 80 |
SDHA_ECOLI и SDHA_BACSU[ссылка]. | 10.0 | 10.0 | 531.0 | 29.8% | 47.9% | 40 |
Видно, что сильно упал вес выравнивания и количество гэпов, но параметры схожести остались примерно такими же.
Теперь сравним выравнивания с разным значением Gap Opening Penalty.
Выравнивание | Gap Opening Penalty | Gap Extension Penalty | Score | Identity | Similarity | Gaps |
SDHA_ECOLI и SDHA_BACSU[ссылка]. | 10.0 | 0.5 | 695.5 | 30.6% | 46.9% | 80 |
SDHA_ECOLI и SDHA_BACSU[ссылка]. | 1.0 | 0.5 | 1225.0 | 33.4% | 47.4% | 298 |
Вес выравнивания увеличился в 2 раза, а количество гэпов - в 3.5 раза. Но если сравнить последовательности в выравнивании с маленьким штрафом
за открытие гэпа, то видно, что они совсем не похожи - слишком большое количество гэпов( они составляют 40.5% от длины всего выравнивания). Этот факт говорит о том,
что низкий штраф приводит к появлению неоправданно большого веса, даже если выравниваются непохожие последовательности.
Для доказательства этого утверждения сравним негомологичные белки из предыдущей части работы - RODA_ECOLI и NUSB_BACSU.
Выравнивание | Gap Opening Penalty | Gap Extension Penalty | Score | Identity | Similarity | Gaps |
RODA_ECOLI и NUSB_BACSU[ссылка]. | 10.0 | 0.5 | 10.0 | 0.6% | 1.4% | 473 |
RODA_ECOLI и NUSB_BACSU[ссылка]. | 1.0 | 0.5 | 212.0 | 17.7% | 23.0% | 289 |
Из этой таблицы видно, что с низким значением Gap Opening Penalty даже выравнивания негомологичных белков приобретают достаточно большой вес.