Практикум 9. Выравнивание последовательностей
2. Глобальное парное выравнивание (needle)
Списки Swiss-Prot ID получены для E. coli K12 (4 531 запись) и B. subtilis 168 (4 191 запись). Общие мнемоники (исключая начинающиеся на Y) найдены через cut | sort | comm. Выбраны три пары: 6PGD, ACKA, ACYP.
Последовательности извлечены из Swiss-Prot с помощью USA-адресов (sw:ID) непосредственно при запуске программ needle и water с параметрами по умолчанию (опция -auto). Индели подсчитаны с помощью скрипта indels.py.
Таблица 1. Характеристики глобального парного выравнивания (needle)
| Белок | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Индели (1/2/Total) |
|---|---|---|---|---|---|---|---|
| 6-phosphogluconate dehydrogenase | 6PGD_ECOLI | 6PGD_BACSU | 1718.0 | 70.0% | 83.4% | 3 (0.6%) | 2 / 1 / 3 |
| Acetate kinase | ACKA_ECOLI | ACKA_BACSU | 821.0 | 43.0% | 63.6% | 23 (5.6%) | 4 / 7 / 11 |
| Acylphosphatase | ACYP_ECOLI | ACYP_BACSU | 141.5 | 32.4% | 45.4% | 33 (30.6%) | 1 / 2 / 3 |
3. Локальное парное выравнивание (water)
Таблица 2. Характеристики локального парного выравнивания (water)
| Белок | ID 1 | ID 2 | Score | % Identity | % Similarity | Gaps | Индели (1/2/Total) | Покрытие 1 | Покрытие 2 |
|---|---|---|---|---|---|---|---|---|---|
| 6PGD | 6PGD_ECOLI | 6PGD_BACSU | 1719.0 | 70.1% | 83.6% | 3 (0.6%) | 2 / 1 / 3 | 99.8% | 99.8% |
| ACKA | ACKA_ECOLI | ACKA_BACSU | 823.5 | 43.3% | 64.2% | 21 (5.2%) | 4 / 6 / 10 | 98.3% | 98.3% |
| ACYP | ACYP_ECOLI | ACYP_BACSU | 150.0 | 42.9% | 59.7% | 5 (6.5%) | 1 / 0 / 1 | 71.3% | 71.3% |
4. Комментарии к выравниваниям
6PGD — 6-фосфоглюконатдегидрогеназа
Белки гомологичны по всей длине (70% идентичности, всего 3 гэпа, по 2–3 инделя). Глобальное и локальное выравнивания практически идентичны (Score 1718 vs 1719, покрытие ~99.8%). Разница в один балл и одну колонку связана с тем, что water отбросил концевую несовпадающую позицию. Вывод: белки высококонсервативны, локальное выравнивание не добавляет существенной информации.
ACKA — ацетаткиназа
Умеренная гомология (43% идентичности). Глобальное выравнивание: 23 гэпа (5.6%), инделей 4/7. Локальное выравнивание: 21 гэп (5.2%), инделей 4/6, покрытие ~98%. Белки гомологичны почти по всей длине, расхождения в основном в петельных участках. Локальное выравнивание немного улучшило показатели за счёт отбрасывания концов, но принципиальной разницы нет.
ACYP — ацилфосфатаза
Самый короткий белок (~100 а.о.). Глобальное выравнивание: низкая идентичность (32.4%), много гэпов (30.6%), инделей 1/2. Локальное выравнивание: идентичность 42.9%, гэпов 6.5%, инделей 1/0, покрытие 71.3%. Белки не гомологичны по всей длине — water выделил консервативное ядро. Это пример, когда локальное выравнивание информативнее: белки имеют общий домен, но различаются по концам.
5. Неродственные белки
Пара с разными мнемониками: 6PGD_ECOLI и ACKA_BACSU.
| Метод | Score | % Identity | % Similarity | Gaps | Индели (1/2/Total) | Покрытие 1 | Покрытие 2 |
|---|---|---|---|---|---|---|---|
| needle (глобальное) | 43.5 | 16.3% | 28.0% | 49.9% | 13 / 20 / 33 | 100% | 100% |
| water (локальное) | 58.5 | 18.6% | 31.0% | 40.7% | 7 / 8 / 15 | 61.1% | 64.3% |
Ожидаемо низкие показатели. Даже water не находит осмысленного сходства (18.6% идентичности при 40.7% гэпов — уровень шума). Это подтверждает, что программы выравнивания могут "натягивать" совпадения, поэтому важен анализ процентов и покрытия.
6. Множественное выравнивание
Мнемоника: 6PGD (6-phosphogluconate dehydrogenase, decarboxylating). Найдено 53 записи в Swiss-Prot.
Для выравнивания выбраны 7 белков: 6PGD_ECOLI, 6PGD_BACSU, 6PGD_MOUSE, 6PGD_SCHPO, 6PGD_HAEIN, 6PGD_STAAC, 6PGD_RAOTE. Выравнивание выполнено программой muscle.
Проект Jalview: 6PGD_alignment.jvp
Наблюдения над выравниванием:
- Все белки хорошо выровнялись по всей длине, что подтверждает высокую консервативность семейства 6-фосфоглюконатдегидрогеназ.
- В выравнивании выделяются несколько блоков с повышенной консервативностью (столбцы 69–84, 118–134, 187–210, 240–268, 310–331, 337–353, 366–384). В этих участках большинство позиций имеют высокий процент идентичности (тёмно-синяя окраска в Jalview).
- Имеются также менее консервативные фрагменты, например, область 398–406 (С-конец белка). Здесь консервативность заметно ниже.
- Одна последовательность — DCUP_MAIZE (кукуруза) — заметно отличается от остальных (бактериальных) белков. Она содержит две выраженные вставки: в столбцах 8–18 и 25–59, которые отсутствуют у бактериальных гомологов.
- Приведённое описание отражает только степень консервативности, наблюдаемую в выравнивании. Для выводов о функциональной роли отдельных участков (активный центр, поверхностные петли) требуется анализ пространственной структуры.