Для проведения множественных выравниваний были выбраны белки с доменом из прошлого задания - PF03462, доменная архитектура состоит только из PF03462. Выбранные белки: A0A022PWQ0, A0A059BLP7, A0A067E6X1, A0A067EEI5, A0A067EFC2.
Множественные выравнивания были произведены с помощью программ: muscle (A), mafft (B), t-coffee (C).
Сравнивались 2 пары выравниваний: A с B и A с C.
Для сравнения использовалась программа, написанная на Python. В ходе сравнения гэпы были заменены на None, а
остальные выровненные позиции на их порядковых номера.
muscle.fasta, mafft.fasta,
tcoffee.fasta
JalviewProject
Две колонки из множественных выравниваний считаются выровненными, если вектора (наборы) номеров их остатков полностью совпадают. Одинаково выровненные колонки объединяются в блоки (>=2 подряд идущих совпадающих колонок).
| Показатель | Значение |
|---|---|
| Длина выравнивания A | 589 колонок |
| Длина выравнивания B | 592 колонки |
| Количество одинаково выровненных колонок | 469 |
| Процент одинаково выровненных колонок от длины A | 79.63% |
| Процент одинаково выровненных колонок от длины B | 79.22% |
| Колонки в A | Колонки в B | Длина |
|---|---|---|
| 5-13 | 5-13 | 9 |
| 17-81 | 17-81 | 65 |
| 94-105 | 96-107 | 12 |
| 114-131 | 116-133 | 18 |
| 158-183 | 160-185 | 26 |
| 212-370 | 214-372 | 159 |
| 374-375 | 376-377 | 2 |
| 382-383 | 384-385 | 2 |
| 392-424 | 394-426 | 33 |
| 433-489 | 436-492 | 57 |
| 492-554 | 495-557 | 63 |
| 561-574 | 564-577 | 14 |
| 582-589 | 585-592 | 8 |
Одинаково выровненные колонки, не входящие в блоки: 1.
| Показатель | Значение |
|---|---|
| Длина выравнивания A | 589 колонок |
| Длина выравнивания C | 590 колонки |
| Количество одинаково выровненных колонок | 470 |
| Процент одинаково выровненных колонок от длины A | 79.8% |
| Процент одинаково выровненных колонок от длины B | 79.66% |
| Колонки в A | Колонки в C | Длина |
|---|---|---|
| 6-79 | 6-79 | 74 |
| 95-104 | 95-104 | 10 |
| 116-132 | 116-132 | 17 |
| 158-181 | 158-181 | 24 |
| 207-372 | 207-372 | 166 |
| 374-375 | 374-375 | 2 |
| 383-385 | 383-385 | 3 |
| 392-424 | 392-424 | 33 |
| 433-471 | 434-472 | 39 |
| 474-489 | 475-490 | 16 |
| 494-529 | 495-530 | 36 |
| 533-535 | 534-536 | 3 |
| 538-545 | 539-546 | 8 |
| 548-574 | 549-575 | 27 |
| 579-589 | 580-590 | 11 |
Одинаково выровненные колонки, не входящие в блоки: 1.
| Пара выравниваний | Длина первого выравнивания | Длина второго выравнивания | Количество одинаково выровненных колонок | Процент от длины A | Процент от второго выравнивания |
|---|---|---|---|---|---|
| A–B | 589 | 592 | 469 | 79.63% | 79.22% |
| A–C | 589 | 590 | 470 | 79.8% | 79.66% |
Хотя число совпадающих блоков A-B ниже чем A-C (13 и 15). Оба выравнивания, B и C, похожи на выравнивание A. В обоих случаях совпадает около 80% колонок относительно длины выравнивания A, различия меньше 1%. Можно сделать вывод, что A-B похожи большим числом мелких блоков, а A-C меньшим числом крупных. В целом, незначительное различие в проценте схожих колонок свидетельствует о примерной сопостовимости алгоритмов в данном случае.
Для выполнения задания были выбраны белки с доменом - PF00008: 1dt4, 1dtj, 1e3h.
С помощью программы PDBeFold было получено множественное совмещение структур (рис. 1). Выравнивания анализировались
использованной в прошлой задачи программой, написанной на Python.
muscle.fasta, structureAlignment.fasta
JalviewProject
| Показатель | Значение |
|---|---|
| Длина выравнивания MUSCLE | 758 колонок |
| Длина выравнивания PDBeFOLD | 826 колонки |
| Количество одинаково выровненных колонок | 87 |
| Процент одинаково выровненных колонок от длины A | 11.48% |
| Процент одинаково выровненных колонок от длины B | 10.53% |
| Колонки в MUSCLE | Колонки в PDBeFOLD | Длина |
|---|---|---|
| 1-6 | 1-6 | 6 |
| 89-92 | 613-616 | 4 |
| 97-128 | 621-652 | 32 |
| 137-146 | 661-670 | 10 |
| 174-180 | 698-704 | 7 |
| 199-205 | 723-729 | 7 |
| 231-248 | 755-772 | 18 |
Одинаково выровненные колонки, не входящие в блоки: 3.
Низкое количество одинаково выровненных колонок закономерно вследствие значительной разницы в размерах белков. Выравнивание PDBeFOLD длиннее чем muscle, что объясняется тем, что анализ информации о пространственном положении в целом более эффективный чем - только последовательностей, особенно если это касается неструктурированных участков и гибких петель. N-концевая часть домена вероятна могла иметь такие участки, что подтверждается низким числом одинаково выровненных колонок в этой части. В ядре домена находится высококонсервативный участок и больше пересекающихся колонок, что свидетельствует о том, что алгоритмы дают здесь схожие результаты и что консервативные части домена могут быть хорошо выровнены без структурных выравниваний.
MUSCLE (Multiple Sequence Comparison by Log-Expectation) - программа для множественного выравнивания
белков и нуклеотидов.
Алгоритм работает в 3 этапа: