Практикум 10. Выравнивание последовательностей белка

В ходе этого практикума были выполнены парные выравнивания некоторых белков Escherichia coli и Bacillus subtilis, а также множественное выравнивание белков с UniProt ID, начинающимися с одинаковой мнемоники.

Глобальное парное выравнивание гомологичных белков

Из UniProt были скачаны 2 списка белков с ID, заканчивающимися на _ECOLI и _BACSU. Затем из них были выбраны 3 пары белков с одинаковыми мнемониками в начале ID: FLAW_BACSU, FLAW_ECOLI; PARC_BACSU, PARC_ECOLI; RIR1_BACSU, RIR1_ECOLI. Для этих белков были сделаны попарные выравнивания с помощью утилиты needle при параметрах по умолчанию. Результаты представлены в таблице 1.

Таблица 1. Глобальные парные выравнивания белков E. coli и B. subtilis.

* для B. subtilis рекомендовано название Probable flavodoxin 2
** для B. subtilis рекомендовано название Ribonucleoside-diphosphate reductase subunit alpha
Protein name UniProt ID 1 UniProt ID 2 Score Identity Similarity Gaps Indels
Flavodoxin 2* FLAW_ECOLI FLAW_BACSU 102.5 20.9% 38.5% 50 9
DNA topoisomerase 4 subunit A PARC_ECOLI PARC_BACSU 966.5 30.2% 49.6% 140 27
Ribonucleoside-diphosphate reductase 1 subunit alpha** RIR1_ECOLI RIR1_BACSU 465.0 21.3% 36.7% 233 31

Локальное парное выравнивание гомологичных белков

На этот раз было выполнено локальное выравнивание тех же пар белков при помощи программы water. Ознакомиться с результатами можно в таблице 2.

Таблица 2. Локальные парные выравнивания белков E. coli и B. subtilis.

* для B. subtilis рекомендовано название Probable flavodoxin 2
** для B. subtilis рекомендовано название Ribonucleoside-diphosphate reductase subunit alpha
Protein name UniProt ID 1 UniProt ID 2 Score Identity Similarity Gaps Indels Coverage 1 Coverage 2
Flavodoxin 2* FLAW_ECOLI FLAW_BACSU 112.0 26.1% 50.5% 5 3 62.4% 72.2%
DNA topoisomerase 4 subunit A PARC_ECOLI PARC_BACSU 969.5 31.8% 52.3% 97 22 95.6% 96.3%
Ribonucleoside-diphosphate reductase 1 subunit alpha** RIR1_ECOLI RIR1_BACSU 475.0 23.5% 40.9% 148 28 85.8% 96.7%

Можно отметить, что вес выравниваний и процент идентичности больше для второй пары белков, и их названия полностью одинаковы, в то время как между названиями менее схожих белков первой и третьей пары есть различия.

Выравнивание негомологичных белков

В качестве примера негомологичных белков были выбраны DPO3E_ECOLI (субъединица ДНК-полимеразы III, AC: P03007) и CYPD_BACSU (цитохром, AC: O08394). Результаты их выравниваний приведены в таблице 3.

Таблица 3. Глобальное и локальное выравнивания негомологичных белков.
Alignment UniProt ID 1 UniProt ID 2 Score Identity Similarity Gaps Indels Coverage 1 Coverage 2
Global DPO3E_ECOLI CYPD_BACSU 25.0 3.2% 6.0% 986 11 - -
Local DPO3E_ECOLI CYPD_BACSU 45.0 19.7% 37.2% 47 7 39.1% 12.4%

Из таблицы видно, что глобальное выравнивание имеет крайне низкий вес и процент идентичности; это объясняется не только отсутствием значимого сходства между двумя белками, но и огромной разницей в длине (243 а. о. против 1061 а. о.), что служит признаком явной негомологичности этих белков. Множество гэпов и небольшое число инделов в глобальном выравнивании означает, что средняя длина одного индела велика (почти 90 гэпов, намного больше, чем при выравнивании гомологов), что также иллюстрирует разность длин белков. Вес локального выравнивания более высок по сравнению с весом глобального, но всё же и он, и показатели идентичности и сходства меньше, чем у рассмотренных выше выравниваний гомологичных белков. Процент покрытия у обоих белков ниже, чем при выравнивании гомологов, поскольку лишь на небольшом участке цепи удаётся обнаружить мнимое сходство. Имеет место разность более чем в 3 раза в проценте покрытия между двумя белками, что, опять же, объясняется значительным различием длин этих белков.

Множественное выравнивание белков, импорт в Jalview

Для этой цели в Swiss-Prot были найдены белки, мнемоника которых начиналась с PARC_ (DNA topoisomerase 4 subunit A). Всего нашлось 39 белков, и из них были выбраны следующие: PARC_PSEAE (AC: Q9HUK1, из Pseudomonas aeruginosa), PARC_SALTY (AC: P26973, из Salmonella typhimurium), PARC_RICTY (AC: Q68XU1, из Rickettsia typhi), PARC_STAAN (AC: Q93KF4, из Staphylococcus aureus), PARC_RHIME (AC: Q59749, из Rhizobium meliloti), а также уже упоминавшиеся PARC_BACSU и PARC_ECOLI.

Чтобы построить выравнивание, был создан файл parc.txt со следующим содержимым:

sw:PARC_PSEAE
sw:PARC_SALTY
sw:PARC_RICTY
sw:PARC_STAAN
sw:PARC_RHIME
sw:PARC_BACSU
sw:PARC_ECOLI
Затем были получены последовательности всех белков в одном файле при помощи команды seqret @parc.txt parc.fasta, что позволило построить выравнивание при помощи программы muscle. Полученный fasta-файл выравнивания был импортирован в Jalview, выравнивание было раскрашено по проценту идентичности, после чего проект был сохранён (скачать проект).

В полученном выравнивании чётко прослеживаются как наиболее консервативные участки белковых цепей: столбцы выравнивания 36-42, 46-51, 85-89, 126-132, 230-235, 309-311, так и наименее консервативные: столбцы 568-584, 605-633, 670-691; стоит отметить, что количество и размер вставок/делеций значительно увеличивается ближе к концу выравнивания (с 735 столбца), что свидетельствует о том, что концевые участки данных белковых цепей также малоконсервативны. Таким образом, наблюдается чёткая структура выравнивания, которой подчиняются все семь выровненных белков, из чего можно сделать вывод, что они являются гомологами.