На главную

Выравнивания

Глобальное парное выравнивание гомологичных белков

Protein name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
UDP-N-acetylmuramoylalanine--D-glutamate ligase MURD_ECOLI MURD_BACSU 508.5 32.4% 49.5% 37 14
UvrABC system protein A UVRA_ECOLI UVRA_BACSU 2964.5 59.1% 75.5% 29 7
Protein RecA RECA_ECOLI RECA_BACSU 1069.5 56.9% 75.7% 23 5

Комментарий: все таблицы для этого практикума были получены при помощи скриптов на Python. Для глобальных выравниваний использовался скрипт scrneedle.py, для локальных выравниваний использовался скрипт считающий покрытие scrwater.py. для нормальной работы обоих скриптов важно присутствие файла , отвечающего за особенности записи строк в html таблице.

Комментарий по полным RecName: почти все названия для этих белков у кишечной и сенной палочек совпадают помимо того, что MURD, белок участвующий в образовании пептидных компонентов пептидогликана клеточной стенки бактерий, в протеоме сенной палочки называется не лигаза, а синтетаза, что по сути синонимичные понятия (ферменты, формирующие новые связи между молекулами с затратой молекул АТФ).

Помимо этого для выравнивания был выбран белок NER системы репарации UVRA и белок связывающий одноцепочечную ДНК и участвующий в обмене цепями при гомологичной рекомбинации: RECA.

Наибольший вес оказался у выравнивания гомологичных белков UVRA из кишечной и сенной палочки, также эти белки имеют найбольший из трех анализируемых пар белков процент идентичных остатков - 59,1%. Выравнивание гомологичных белков RECA имеет почти в три раза меньший вес, чем выранивание белков UVRA (скорее всего потому, что абсолютная длина белка UVRA больше, чем у RECA, а так как оба белка имеют высокий уровень гомологии, то у первого просто больше одинаковых или похожих по свойствам аминокислот, за которые можно начислять очки), но имеет почти такой же процент синонимичных и идентичных букв и незначительно меньшее количество гэпов и инделей. Такой высокий уровень гомологии может быть связан с тем, что и UVRA и RECA участвуют в репарации ДНК и даже те аминокислотные замены, которые вызывают незначительное снижение приспособленности, довольно быстро элиминируются из популяции. MURD же гораздо меньше подвержен действию стабилизирующего отбора и его выравнивание имеет наименьший вес.

Локальное парное выравнивание гомологичных белков

Protein name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
UDP-N-acetylmuramoylalanine--D-glutamate ligase murd_ecoli murd_bacsu 520.5 33.0% 50.4% 34 13 97.3% 96.7%
UvrABC system protein A uvra_ecoli uvra_bacsu 2964.5 60.4% 77.2% 8 5 100.0% 97.8%
Protein RecA RECA_ECOLI RECA_BACSU 1072.5 58.5% 77.8% 16 3 98.3% 98.0%

Так как выравнивания гомологичных пар всех этих белков имеют покрытие близкое к 100%, то параметры локальных выравниваний не сильно отличаются от таковых в глобальных выравниваниях (не существует таких достаточно протяженных участков белковых последовательностей, выкинув которые из выравниваний, можно значительно уменьшить количество инделей, или увеличить процент идентичных или похожих аминокислот.)

Глобальное парное выравнивание неродственных белков

Protein name 1 Protein name 2 ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Isocitrate dehydrogenase [NADP] NAD-dependent malic enzyme IDH_ECOLI MAO1_BACSU 65.5 17.0% 30.4% 183 22
Oligopeptide transport ATP-binding protein OppD Arginine ABC transporter permease protein ArtM OPPD_ECOLI ARTM_BACSU 274.5 23.4% 38.3% 97 10

Для выравнивания неродственных белков были выбраны две пары таковых: IDH - изоцитратдегидрогеназа и MAO1 - НАДН зависимый малик энзим (его RecName в сенной палочке отличается от того, что записан для кишечной палочки и выглядит так : Probable NAD-dependent malic enzyme 1.). Эти два фермента занимаются окислением гидроксокислот до кетокислот с выделением углекислого газа, но задействованы при этом в разных процессах и связывают разные субстраты. Вторая пара белков: OPPD и ARTM. RecName для белка OPPD аналогичен в обеих бактериях, а для белка ARTM в сенной палочке RecName выглядит так:Arginine transport ATP-binding protein ArtM, что по смыслу не сильно отличается от представленного в таблице RecName для кишечной палочки, так как ABC значит ATP binding cassete, а permease подчеркивает причастность данного белка к транспорту веществ через мембрану.

Локальное парное выравнивание неродственных белков

Protein name 1 Protein name 2 ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Isocitrate dehydrogenase [NADP] NAD-dependent malic enzyme IDH_ECOLI MAO1_BACSU 77.0 22.7% 35.0% 118 20 50.5% 66.1%
Oligopeptide transport ATP-binding protein OppD Arginine ABC transporter permease protein ArtM OPPD_ECOLI ARTM_BACSU 280.5 32.2% 52.1% 15 8 71.8% 94.6%

Так как белки не являлись гомологами, то при переходе от глобального к локальному выравниванию программе удалось найти наиболее похожие куски последовательностей и значительно улучшить параметры выравниваний, в частности в локальных выравниваниях по сравнению с глобальными значительно уменьшается количество гэпов и инделей и видимо увеличивается доля идентичных и синонимичных аминокислот. Несмотря на то, что в данном выравнивании рассматривались негомологичные пары белков, по показателям identity и similarity пара белков OPPD и ARTM (32,2% и 52,1% соответственно) она довольно близка к паре MURD (33,0% и 50,4% соответственно), что может говорить о том, что АТФ свзывающие белки действительно похожи по своей последовательности.

Сохранение выравнивания в fasta-формате и импорт в Jalview

Глобальное выравнивание RECA_ECOLI и RECA_BACSU в виде проекта Jalview

Множественное выравнивание белков

Множественное выравнивание 7 белков гомологов UVRA в виде проекта Jalview

Всего нашлось 96 белков, имеющих мнемонику UVRA. Из них было выбрано 5 белков не принадлежащих E.coli и B.subtilis: UVRA_STAAR (Staphylococcus aureus (strain MRSA252)), UVRA_STAAS (Staphylococcus aureus (strain MSSA476)), UVRA_RICCN (Rickettsia conorii (strain ATCC VR-613 / Malish 7)), UVRA_MYCGE (Mycoplasma genitalium (strain ATCC 33530 / G-37 / NCTC 10195)), UVRA_BACHD (Bacillus halodurans (strain ATCC BAA-125 / DSM 18197 / FERM 7344 / JCM 9153 / C-125)) и эта выборка была дополнена белками UVRA_ECOLI и UVRA_BACSU из Escherichia coli (strain K12) и Bacillus subtilis (strain 168) соответственно.

По моему мнению белки выровнялись хорошо, так как в выравнивании присутствуют довольно протяженные блоки (10-15 аминокислот) в столбцах которых аминокислоты разных гомологичных белков полностью совпадают или отличаются для одной гомологичной последовательности (такие столбцы и участки белковой молекулы на картинке окрашены ярко синим цветом). Причем довольно часто в таких столбцах, где идентичны аминокислоты всех белков, кроме одного, это отличие представлено синонимичной аминокислотной заменой (например S-T, E-D, L-I, I-V, S-C, R-K и т.п.). Помимо того, что сами блоки достаточно протяженные, они часто организованы в кластеры, в которых отдельные блоки разделены между собой небольшим количеством столбцов, процент идентичности в которых ниже или же позиция в которых является вариабельной. При этом, если в позиции только два гомолога имеют отличающиеся от консенсусной аминокислоты, то эти аминокислоты часто оказываются одинаковыми, что также позволяет считать это выравнивание хорошим (случайная вероятность такого события маловероятна -> скорее всего участки гомологичны -> выравнивание хорошее). Кластеры блоков с большим процентом идентичности разделены участками, позиции в которых чередуют в себе высокий и низкий уровни идентичности c преобладанием последнего. Таким образом в выравнивании можно выделить как высококонсервативные участки (крупные высококонсервативные участки представлены кластерами блоков с высоким уровнем идентичности, помимо этого может иметь место консервативность отдельных позиций), так и участки с низкой консервативностью. Также эти белки можно считать гомологичными, так как высококонсервативные участки, скорее всего значимые для выполнения данным белком своих функций, являются общими для всех выравниваемых белков, а значит у них скорее всего в этих местах действительно расположены функциональные домены, устроенные похожим образом.

Белок UVRA_ECOLI c раскраской по проценту идентичности PDB ID - 4FDC


© Кристина Перевощикова, 2017