pdb

Выдача программы:
SP score: 0.78
CS score: 0.55
avg_SPdist score: 0.88

^*SP score - процент гомологий в эталонном выравнивании, который появляется в предполагаемом выравнивании (доля одинаково выровненных пар остатков в тестовом и эталонном выравниваниях),CS score - доля одинаково выровненных позиций, avg_SPdist - похожа на оценку SP, но включает информацию о расстоянии между парами несовмещенных остатков (Для каждой выровненной пары остатков в эталонном выравнивании теперь определяется расстояние между соответствующими двумя остатками в выравнивании запроса; в качестве конечной оценки SPdist рассчитывается среднее расстояние несоответствия по всем выровненным парам в эталонном выравнивании).

Ниже приведён начальный фрагмент сравнения выравниваний программами Clustal и Muscle. Можно заметить, что выравнивания совпали на позициях (привожу лишь несколько примеров) 26-41, 74-92, и не совпали на позициях 1-15, 46-49 (высчитано вручную).

helic — **Рис. 1.** Сравнения выравниваний ClustalW (сверху) и Muscle (снизу) в VerAlign.

MSAprobs и MAFFT

Выдача программы:
SP score: 0.85
CS score: 0.69
avg_SPdist score: 0.92

^*SP score - процент гомологий в эталонном выравнивании, который появляется в предполагаемом выравнивании (доля одинаково выровненных пар остатков в тестовом и эталонном выравниваниях),CS score - доля одинаково выровненных позиций, avg_SPdist - похожа на оценку SP, но включает информацию о расстоянии между парами несовмещенных остатков (Для каждой выровненной пары остатков в эталонном выравнивании теперь определяется расстояние между соответствующими двумя остатками в выравнивании запроса; в качестве конечной оценки SPdist рассчитывается среднее расстояние несоответствия по всем выровненным парам в эталонном выравнивании).

Ниже приведён начальный фрагмент сравнения выравниваний программами MSAprobs и MAFFT.

Аналогично (приведу несколько примеров), совпало: 1-4, 19-22, не совпало: 5-9, 23-25.

Построение выравнивания по совмещению структур и сравнение его с выравниванием MSA

Для выполнения этого задания я выбрала семейство RabGAP-TBC (PF00566) и 3 белка их него (далее указаны PDB ID): 3HZJ, 4NC6, 5HJN. Выравнивание было произведено в PyMOL с помощью команды align.

Как можно заметить, существует участок с высокой степенью гомологии структур (на нём сделан акцент на рис. 2). При этом мы наблюдаем и гетероморфность: так, например, у белка 3HZJ есть длинный хвост, который, вероятно, участвует в связывании. Такие рассуждения подтверждаются выравниванием программой ClustalW в JalView, которое можно найти тут. Также я сделала выравнивание на сайте PDB (вкладка Analyze; его можно найти тут), вывод представлен ниже. Всё это вновь подтверждает высокий уровень сходства последовательностей.

Описание работы ClustalW

Clustal — это серия широко используемых компьютерных программ для множественного выравнивания последовательностей. У этого прогрессивного подхода есть две основные проблемы:
– проблема локального минимума
– выбор параметров выравнивания.
ClustalW — это подход, призванный решить эти проблемы.
В ClustalW чувствительность прогрессивного множественного выравнивания была значительно улучшена для выравнивания "расходящихся" белковых последовательностей. В новую программу включено несколько модификаций. Эти модификации можно описать поэтапно:

[1] каждой последовательности при частичном выравнивании присваиваются индивидуальные веса, чтобы понизить вес [почти] повторяющихся последовательностей и увеличить вес наиболее расходящихся. Эти весовые коэффициенты выполняются в соответствии с древовидной структурой MSA. Напротив, в обычном алгоритме прогрессивного выравнивания, например, все последовательности будут иметь одинаковый вес.

[2] матрицы аминокислотных замен варьируются на разных стадиях выравнивания в соответствии с расхождением последовательностей, подлежащих выравниванию. Чтобы вычислить оценку между положением из одной последовательности или выравнивания и положением из другой, используется среднее значение всех парных оценок весовой матрицы для аминокислот в двух наборах последовательностей. Если какой-либо набор последовательностей содержит один или несколько пробелов в одной из рассматриваемых позиций, каждый пробел по сравнению с остатком оценивается как ноль. Кроме того, используемые нами матрицы веса аминокислот по умолчанию пересчитываются, чтобы иметь только положительные значения.

Использованные источники:

[1] Higgins DG, Thompson JD, Gibson TJ. Using CLUSTAL for multiple sequence alignments. Methods Enzymol. 1996;266:383-402. doi: 10.1016/s0076-6879(96)66024-8. PMID: 8743695.
[2] Thompson JD, Gibson TJ, Higgins DG. Multiple sequence alignment using ClustalW and ClustalX. Curr Protoc Bioinformatics. 2002 Aug;Chapter 2:Unit 2.3. doi: 10.1002/0471250953.bi0203s00. PMID: 18792934.
[3] Che-Lun Hung, Yu-Shiang Lin, Chun-Yuan Lin, Yeh-Ching Chung, Yi-Fang Chung, CUDA ClustalW: An efficient parallel algorithm for progressive multiple sequence alignment on Multi-GPUs.
[4] Thompson JD, Higgins DG, Gibson TJ. CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 1994 Nov 11;22(22):4673-80. doi: 10.1093/nar/22.22.4673. PMID: 7984417; PMCID: PMC308517.

Сравнение выравнивания одних и тех же последовательностей разными программами

ClustalW и Muscle

MSAprobs и MAFFT

Построение выравнивания по совмещению структур и сравнение его с выравниванием MSA

Описание работы ClustalW

Использованные источники: