Практикум 9. Выравнивание последовательностей

2. Глобальное парное выравнивание (needle)

Списки Swiss-Prot ID получены для E. coli K12 (4 531 запись) и B. subtilis 168 (4 191 запись). Общие мнемоники (исключая начинающиеся на Y) найдены через cut | sort | comm. Выбраны три пары: 6PGD, ACKA, ACYP.

Последовательности извлечены из Swiss-Prot с помощью USA-адресов (sw:ID) непосредственно при запуске программ needle и water с параметрами по умолчанию (опция -auto). Индели подсчитаны с помощью скрипта indels.py.

Таблица 1. Характеристики глобального парного выравнивания (needle)

БелокID 1ID 2Score% Identity% SimilarityGapsИндели (1/2/Total)
6-phosphogluconate dehydrogenase6PGD_ECOLI6PGD_BACSU1718.070.0%83.4%3 (0.6%)2 / 1 / 3
Acetate kinaseACKA_ECOLIACKA_BACSU821.043.0%63.6%23 (5.6%)4 / 7 / 11
AcylphosphataseACYP_ECOLIACYP_BACSU141.532.4%45.4%33 (30.6%)1 / 2 / 3

3. Локальное парное выравнивание (water)

Таблица 2. Характеристики локального парного выравнивания (water)

БелокID 1ID 2Score% Identity% SimilarityGapsИндели (1/2/Total)Покрытие 1Покрытие 2
6PGD6PGD_ECOLI6PGD_BACSU1719.070.1%83.6%3 (0.6%)2 / 1 / 399.8%99.8%
ACKAACKA_ECOLIACKA_BACSU823.543.3%64.2%21 (5.2%)4 / 6 / 1098.3%98.3%
ACYPACYP_ECOLIACYP_BACSU150.042.9%59.7%5 (6.5%)1 / 0 / 171.3%71.3%

4. Комментарии к выравниваниям

6PGD — 6-фосфоглюконатдегидрогеназа

Белки гомологичны по всей длине (70% идентичности, всего 3 гэпа, по 2–3 инделя). Глобальное и локальное выравнивания практически идентичны (Score 1718 vs 1719, покрытие ~99.8%). Разница в один балл и одну колонку связана с тем, что water отбросил концевую несовпадающую позицию. Вывод: белки высококонсервативны, локальное выравнивание не добавляет существенной информации.

ACKA — ацетаткиназа

Умеренная гомология (43% идентичности). Глобальное выравнивание: 23 гэпа (5.6%), инделей 4/7. Локальное выравнивание: 21 гэп (5.2%), инделей 4/6, покрытие ~98%. Белки гомологичны почти по всей длине, расхождения в основном в петельных участках. Локальное выравнивание немного улучшило показатели за счёт отбрасывания концов, но принципиальной разницы нет.

ACYP — ацилфосфатаза

Самый короткий белок (~100 а.о.). Глобальное выравнивание: низкая идентичность (32.4%), много гэпов (30.6%), инделей 1/2. Локальное выравнивание: идентичность 42.9%, гэпов 6.5%, инделей 1/0, покрытие 71.3%. Белки не гомологичны по всей длине — water выделил консервативное ядро. Это пример, когда локальное выравнивание информативнее: белки имеют общий домен, но различаются по концам.

5. Неродственные белки

Пара с разными мнемониками: 6PGD_ECOLI и ACKA_BACSU.

МетодScore% Identity% SimilarityGapsИндели (1/2/Total)Покрытие 1Покрытие 2
needle (глобальное)43.516.3%28.0%49.9%13 / 20 / 33100%100%
water (локальное)58.518.6%31.0%40.7%7 / 8 / 1561.1%64.3%

Ожидаемо низкие показатели. Даже water не находит осмысленного сходства (18.6% идентичности при 40.7% гэпов — уровень шума). Это подтверждает, что программы выравнивания могут "натягивать" совпадения, поэтому важен анализ процентов и покрытия.

6. Множественное выравнивание

Мнемоника: 6PGD (6-phosphogluconate dehydrogenase, decarboxylating). Найдено 53 записи в Swiss-Prot.

Для выравнивания выбраны 7 белков: 6PGD_ECOLI, 6PGD_BACSU, 6PGD_MOUSE, 6PGD_SCHPO, 6PGD_HAEIN, 6PGD_STAAC, 6PGD_RAOTE. Выравнивание выполнено программой muscle.

Проект Jalview: 6PGD_alignment.jvp

Наблюдения над выравниванием: