Практикум 10. Выравнивание последовательностей белка
В ходе этого практикума были выполнены парные выравнивания некоторых белков Escherichia coli и Bacillus subtilis, а также множественное выравнивание белков с UniProt ID, начинающимися с одинаковой мнемоники.
Глобальное парное выравнивание гомологичных белков
Из UniProt были скачаны 2 списка белков с ID, заканчивающимися на _ECOLI и _BACSU. Затем из них были выбраны 3 пары белков с одинаковыми мнемониками в начале ID: FLAW_BACSU, FLAW_ECOLI; PARC_BACSU, PARC_ECOLI; RIR1_BACSU, RIR1_ECOLI. Для этих белков были сделаны попарные выравнивания с помощью утилиты needle при параметрах по умолчанию. Результаты представлены в таблице 1.
Protein name | UniProt ID 1 | UniProt ID 2 | Score | Identity | Similarity | Gaps | Indels |
---|---|---|---|---|---|---|---|
Flavodoxin 2* | FLAW_ECOLI | FLAW_BACSU | 102.5 | 20.9% | 38.5% | 50 | 9 |
DNA topoisomerase 4 subunit A | PARC_ECOLI | PARC_BACSU | 966.5 | 30.2% | 49.6% | 140 | 27 |
Ribonucleoside-diphosphate reductase 1 subunit alpha** | RIR1_ECOLI | RIR1_BACSU | 465.0 | 21.3% | 36.7% | 233 | 31 |
Локальное парное выравнивание гомологичных белков
На этот раз было выполнено локальное выравнивание тех же пар белков при помощи программы water. Ознакомиться с результатами можно в таблице 2.
Protein name | UniProt ID 1 | UniProt ID 2 | Score | Identity | Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
Flavodoxin 2* | FLAW_ECOLI | FLAW_BACSU | 112.0 | 26.1% | 50.5% | 5 | 3 | 62.4% | 72.2% |
DNA topoisomerase 4 subunit A | PARC_ECOLI | PARC_BACSU | 969.5 | 31.8% | 52.3% | 97 | 22 | 95.6% | 96.3% |
Ribonucleoside-diphosphate reductase 1 subunit alpha** | RIR1_ECOLI | RIR1_BACSU | 475.0 | 23.5% | 40.9% | 148 | 28 | 85.8% | 96.7% |
Можно отметить, что вес выравниваний и процент идентичности больше для второй пары белков, и их названия полностью одинаковы, в то время как между названиями менее схожих белков первой и третьей пары есть различия.
Выравнивание негомологичных белков
В качестве примера негомологичных белков были выбраны DPO3E_ECOLI (субъединица ДНК-полимеразы III, AC: P03007) и CYPD_BACSU (цитохром, AC: O08394). Результаты их выравниваний приведены в таблице 3.
Alignment | UniProt ID 1 | UniProt ID 2 | Score | Identity | Similarity | Gaps | Indels | Coverage 1 | Coverage 2 |
---|---|---|---|---|---|---|---|---|---|
Global | DPO3E_ECOLI | CYPD_BACSU | 25.0 | 3.2% | 6.0% | 986 | 11 | - | - |
Local | DPO3E_ECOLI | CYPD_BACSU | 45.0 | 19.7% | 37.2% | 47 | 7 | 39.1% | 12.4% |
Из таблицы видно, что глобальное выравнивание имеет крайне низкий вес и процент идентичности; это объясняется не только отсутствием значимого сходства между двумя белками, но и огромной разницей в длине (243 а. о. против 1061 а. о.), что служит признаком явной негомологичности этих белков. Множество гэпов и небольшое число инделов в глобальном выравнивании означает, что средняя длина одного индела велика (почти 90 гэпов, намного больше, чем при выравнивании гомологов), что также иллюстрирует разность длин белков. Вес локального выравнивания более высок по сравнению с весом глобального, но всё же и он, и показатели идентичности и сходства меньше, чем у рассмотренных выше выравниваний гомологичных белков. Процент покрытия у обоих белков ниже, чем при выравнивании гомологов, поскольку лишь на небольшом участке цепи удаётся обнаружить мнимое сходство. Имеет место разность более чем в 3 раза в проценте покрытия между двумя белками, что, опять же, объясняется значительным различием длин этих белков.
Множественное выравнивание белков, импорт в Jalview
Для этой цели в Swiss-Prot были найдены белки, мнемоника которых начиналась с PARC_ (DNA topoisomerase 4 subunit A). Всего нашлось 39 белков, и из них были выбраны следующие: PARC_PSEAE (AC: Q9HUK1, из Pseudomonas aeruginosa), PARC_SALTY (AC: P26973, из Salmonella typhimurium), PARC_RICTY (AC: Q68XU1, из Rickettsia typhi), PARC_STAAN (AC: Q93KF4, из Staphylococcus aureus), PARC_RHIME (AC: Q59749, из Rhizobium meliloti), а также уже упоминавшиеся PARC_BACSU и PARC_ECOLI.
Чтобы построить выравнивание, был создан файл parc.txt со следующим содержимым:
sw:PARC_PSEAE sw:PARC_SALTY sw:PARC_RICTY sw:PARC_STAAN sw:PARC_RHIME sw:PARC_BACSU sw:PARC_ECOLIЗатем были получены последовательности всех белков в одном файле при помощи команды seqret @parc.txt parc.fasta, что позволило построить выравнивание при помощи программы muscle. Полученный fasta-файл выравнивания был импортирован в Jalview, выравнивание было раскрашено по проценту идентичности, после чего проект был сохранён (скачать проект).
В полученном выравнивании чётко прослеживаются как наиболее консервативные участки белковых цепей: столбцы выравнивания 36-42, 46-51, 85-89, 126-132, 230-235, 309-311, так и наименее консервативные: столбцы 568-584, 605-633, 670-691; стоит отметить, что количество и размер вставок/делеций значительно увеличивается ближе к концу выравнивания (с 735 столбца), что свидетельствует о том, что концевые участки данных белковых цепей также малоконсервативны. Таким образом, наблюдается чёткая структура выравнивания, которой подчиняются все семь выровненных белков, из чего можно сделать вывод, что они являются гомологами.