Практикум 12. Алгоритмы и программы множественного выравнивания.

Описание выбранного семейства белковых доменов

Для проведения множественных выравниваний были выбраны белки с доменом из прошлого задания - PF03462, доменная архитектура состоит только из PF03462. Выбранные белки: A0A022PWQ0, A0A059BLP7, A0A067E6X1, A0A067EEI5, A0A067EFC2.

Множественные выравнивания были произведены с помощью программ: muscle (A), mafft (B), t-coffee (C). Сравнивались 2 пары выравниваний: A с B и A с C. Для сравнения использовалась программа, написанная на Python. В ходе сравнения гэпы были заменены на None, а остальные выровненные позиции на их порядковых номера.
muscle.fasta, mafft.fasta, tcoffee.fasta
JalviewProject

Две колонки из множественных выравниваний считаются выровненными, если вектора (наборы) номеров их остатков полностью совпадают. Одинаково выровненные колонки объединяются в блоки (>=2 подряд идущих совпадающих колонок).

Сравнение A и B

Таблица 1. Сравнение A и B
ПоказательЗначение
Длина выравнивания A589 колонок
Длина выравнивания B592 колонки
Количество одинаково выровненных колонок469
Процент одинаково выровненных колонок от длины A79.63%
Процент одинаково выровненных колонок от длины B79.22%

Таблица 2. Блоки одинаково выровненных колонок
Колонки в AКолонки в BДлина
5-135-139
17-8117-8165
94-10596-10712
114-131116-13318
158-183160-18526
212-370214-372159
374-375376-3772
382-383384-3852
392-424394-42633
433-489436-49257
492-554495-55763
561-574564-57714
582-589585-5928

Одинаково выровненные колонки, не входящие в блоки: 1.

Сравнение A и C

Таблица 3. Сравнение A и C
ПоказательЗначение
Длина выравнивания A589 колонок
Длина выравнивания C590 колонки
Количество одинаково выровненных колонок470
Процент одинаково выровненных колонок от длины A79.8%
Процент одинаково выровненных колонок от длины B79.66%

Таблица 4. Блоки одинаково выровненных колонок
Колонки в AКолонки в CДлина
6-796-7974
95-10495-10410
116-132116-13217
158-181158-18124
207-372207-372166
374-375374-3752
383-385383-3853
392-424392-42433
433-471434-47239
474-489475-49016
494-529495-53036
533-535534-5363
538-545539-5468
548-574549-57527
579-589580-59011

Одинаково выровненные колонки, не входящие в блоки: 1.

Сравнение результататов

Пара выравниваний Длина первого выравнивания Длина второго выравнивания Количество одинаково выровненных колонок Процент от длины A Процент от второго выравнивания
A–B 589 592 469 79.63% 79.22%
A–C 589 590 470 79.8% 79.66%

Хотя число совпадающих блоков A-B ниже чем A-C (13 и 15). Оба выравнивания, B и C, похожи на выравнивание A. В обоих случаях совпадает около 80% колонок относительно длины выравнивания A, различия меньше 1%. Можно сделать вывод, что A-B похожи большим числом мелких блоков, а A-C меньшим числом крупных. В целом, незначительное различие в проценте схожих колонок свидетельствует о примерной сопостовимости алгоритмов в данном случае.

Построение выравнивания по совмещению структур
и сравнение его с выравниванием MSA

Для выполнения задания были выбраны белки с доменом - PF00008: 1dt4, 1dtj, 1e3h. С помощью программы PDBeFold было получено множественное совмещение структур (рис. 1). Выравнивания анализировались использованной в прошлой задачи программой, написанной на Python.
muscle.fasta, structureAlignment.fasta
JalviewProject

Рис. 1. Визуализация множественного совмещения структур выбранных белков семейства
PF00008 (1dt4 - голубой, 1dtj - зелёный, 1e3h - розовый).

Сравнение PDBeFOLD и MUSCLE

Таблица 1. Сравнение PDBeFOLD и MUSCLE
ПоказательЗначение
Длина выравнивания MUSCLE758 колонок
Длина выравнивания PDBeFOLD826 колонки
Количество одинаково выровненных колонок87
Процент одинаково выровненных колонок от длины A11.48%
Процент одинаково выровненных колонок от длины B10.53%

Таблица 2. Блоки одинаково выровненных колонок
Колонки в MUSCLEКолонки в PDBeFOLDДлина
1-61-66
89-92613-6164
97-128621-65232
137-146661-67010
174-180698-7047
199-205723-7297
231-248755-77218

Одинаково выровненные колонки, не входящие в блоки: 3.

Низкое количество одинаково выровненных колонок закономерно вследствие значительной разницы в размерах белков. Выравнивание PDBeFOLD длиннее чем muscle, что объясняется тем, что анализ информации о пространственном положении в целом более эффективный чем - только последовательностей, особенно если это касается неструктурированных участков и гибких петель. N-концевая часть домена вероятна могла иметь такие участки, что подтверждается низким числом одинаково выровненных колонок в этой части. В ядре домена находится высококонсервативный участок и больше пересекающихся колонок, что свидетельствует о том, что алгоритмы дают здесь схожие результаты и что консервативные части домена могут быть хорошо выровнены без структурных выравниваний.

Краткое описание одной из программ MSA

MUSCLE (Multiple Sequence Comparison by Log-Expectation) - программа для множественного выравнивания белков и нуклеотидов.
Алгоритм работает в 3 этапа:

  1. Первичное выравнивание строится по попарным расстояниям между последовательностями методом UPGMA. Итог: первичное выравнивание и первичное дерево.
  2. Вторичное выравнивание. Дерево дерево перестраивается на основе расстояний Кимуры, выравнивание пересчитывается.
  3. Итеративное улучшение выравнивания (refinement). Несколько итераций разделения дерева на два поддерева и оптимизации выравнивания между ними.