ПРАКТИКУМ 9

Глобальное парное выравнивание гомологичных белков

Отобрав все белки с одинаковой мнемоникой функции у организмов Escherichia coli (strain K12) и Bacillus subtilis (strain 168) мной были выбраны три пары: BIPA, CDD и PURU

Таблица 1. Характеристики глобального парного выравнивания трёх пар белков

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels
Large ribosomal subunit
assembly factor BipA
BIPA_ECOLI BIPA_BACSU 1746.0 53.9% 74.0% 5 2
Cytidine deaminase CDD_ECOLI CDD_BACSU 101.0 13.9% 20.5% 176 8
Formyltetrahydrofolate
deformylase
PURU_ECOLI PURU_BACSU 601.5 41.4% 59.3% 34 7

Таблица 2. Характеристики локального парного выравнивания трёх пар белков

Protein Name ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Large ribosomal subunit assembly factor BipA BIPA_ECOLI BIPA_BACSU 1751.5 54.9% 75.2% 0 0 99.0 98.2
Cytidine deaminase CDD_ECOLI CDD_BACSU 108.0 32.8% 47.4% 11 5 36.4 83.8
Formyltetrahydrofolate
deformylase
PURU_ECOLI PURU_BACSU 611.5 45.0% 63.9% 20 5 95.4 91.0

Анализируя, приведенные выше таблицы можно с увереностью сказать, что белки BIPA и PURU гомологичны, так как имеют процент идентиности явно превышающий 25%, соответсвующий случайному совпадению. Несмотря на то, что последовательности не полностью совпадают, прослеживаются консервативные участки, с высокой схожестью, к примеру для пары BIPA - это участки: 8-32; 51-63; 69-80 и 358-377 (последовательности E. Coli) в глобальном выравнивание этой пары. Для белков PURU гомологичность прослеживается в участке 206-233 (последовательности E. Coli) для локального выравнивания этой пары. В данном случае выравнивание Smith & Waterman несильно влияет на получаемые результаты схожести, лишь несколько повышая ее и сокрощая количество гэпов, да и высокий процент покрытия белков выравнивания подтверждает незначительные изменения в локальном выравнивание относительно глобального.
Ситуация с парой CDD отлична от вышеизложенной, при глобальном выравние мы наблюдаем очень низкий процент схожести и большое количесвто гэпов. Однако, число инделей слабо отличается, от гомологичных последовательностей, поэтому точно сказать об отсутсвии гомологии нельзя. Локальное выравнивание этих последовательностей показывает более высокий процент совпадений, и меньшее число гэпов (даже меньше чем у пары PURU с достаточно высокой степенью схожести). Но несмотря на это, найти четких гомологичных участков не удалось.
Дополнительно я решил сравнить пространственные структуры белков puru_ecoli и puru_bacsu, чтобы точнее определить возможную гомологию. Для этого использовалась программа PyMOL. Белок E. Coli покрашен в синий цвет, а его малые молекулы в оранжевый, белок Bacillus subtilis в красный, относящиеся к нему малые молекулы в циановый.

Сравнение белков

Рисунок 1. Сравнение пространственных структур белков пары CDD

Как мы можем заметить у данных белков присутсвуют схожие участки, которые совпадают при наложении. Расположение малых молекул также частично совпадает, так что можно сделать вывод, что каталитические сайты расположены одинаково. Из схожести структуры и более высокой идентичности при локальном выравнивание можно сделать вывод, что данные белки с большой долей вероятности имеют общность происхождения, однако, разошлись они достаточно давно и притерпели серьезные изменения.

Выравнивание случайных пар

Таблица 3. Выравнивание неродственных белков

Program ID 1 ID 2 Score % Identity % Similarity Gaps Indels Coverage 1 Coverage 2
Needle DNAG_ECOLI KHSE_BACSU 30.0 3.3% 6.2% 666 8 - -
Water DNAG_ECOLI KHSE_BACSU 42.0 28.3% 48.2% 6 2 9.5% 19.1%

Для выравнивания неродственных последовательностей, я случайно выбрал DNAG_ECOli - DNA primase и KHSE_BACSU - Homoserine kinase. Как и ожидалось для неродственных белков, выравнивания имели очень малую схожесть, и огромное количество гэпов. Хотя локальное выравнивание и показало более высокую схожесть, но процент покрытия выравниванием последовательностей оказался очень низок, и видимо, участки для выравнивания были выбраны случайно (у ECOLI 65-119 а. о., а у BACSU 248-306). Из этих данных, можем сделать точный вывод, что эти белки имеют схожее происхождение.

Множетсвенное выравнивание

Мной была выбрана мнемоника BIPA (Large ribosomal subunit assembly factor BipA). Данный белок участвует в сборке рибосом, так что группе этих белков должна быть свойствена высокая консвервативность, что подтвержадется большим количеством записей о нем в UniProt. Всего было найдено 40,436 записей.
Для множественного выравнивания, в дополнение к белкам Escherichia coli (strain K12) и Bacillus subtilis (strain 168), были выбраны белки BIPA_SALTY (Salmonella typhimurium (strain LT2)), BIPA_ECO27 (Escherichia coli O127:H6 (strain E2348/69 / EPEC)), BIPA_HELPY (Helicobacter pylori), BIPA_SHIFL (Shigella flexneri) и SVR3_ARATH (Arabidopsis thaliana).
Выравнивание проводилось, с помощью EMBOSS и программы muscle (подробные шаги изложены в подсказках к пр9 на kodomo). В программе Jalview колонки были покрашены по идентичности, в связи с высокой консервативностью последовательностей, параметр conservation был выставлен 100%.
Множественное выравнивание
Выравнивание для всех белков прошло успешно, только у SVR3_ARATH (Arabidopsis thaliana) наблюдается отклонение от общего патерна, в виде вставки в последовательность дополнительных 79 а.о., что неудивительно, так как Arabidopsis thaliana единственный представитель эукариот. Несмотря на это, в выравнивание встречается большое количество консервативных участков. Приведу наиболее длинные из них:
Идентичные гомологичные участки находятся в позициях 89-100;
120-134 (за исключением позиции 127);
151-164 (с негомологичной заменой у Арабидопсиса в положение 166 A на S);
298-302 (замена глутамина на аланин в 299 положение у Арабидопсиса и в 300 у Хеликобактера)
347-350 (замена изолейцина на лейцин в позиции 350 у Bacillus subtilis)
524-528 (замена только у Арабидопсиса изолейцина на лейцин)
435-439; 451-454; 657-660 полностью идентичны
Участки со слабой гомологией: 250-262; 307-246; 356-380; 668-688
Обобщая, можно сказать, что данные белки гомологичны и имеют много консервативных участков, такое сходство объяснимо функцией данных белков. Факторы, участвующие в сборке рибосом, должны действовать безошибочно и точно, иначе клетка окажется нежизнеспособной, в связи с этим мутации в данных последовательностях редко закрепляются. Отдельно стоит сказать про Arabidopsis thaliana, он сильнее выбивается из общей канвы, так как является представителем эукариот, рибосомы которых отличаются от таковых в прокариотах.