Практикум 12.

2. Сравнение выравниваний

Для 11 последовательностей, в которых встречается домен PF00007 (из практикума 11), было построено три выравнивания: MUSCLE; MAFFT; T-coffee.
Список ID выбранных последовательностей: CCN1_MOUSE, CCN1_HUMAN, CCN1_PANTR, CCN6_HUMAN, GTHB1_THUOB, GTHB1_FUNHE, TSHB_HUMAN, TSHB_MOUSE, TSHB_BOVW, TSHB_RAT, TSHB_PIG.
Проект JalView с этими тремя выравниваниями: по ссылке.

Комментарий	MUSCLE и MAFFT	MUSCLE и T-coffee
Длина выравниваний, соответственно	419 и 424	419 и 424
Найдено блоков	30	21
Колонок в блоках	133	74
Одиночных колонок	126 (список в формате .txt)	125 (список в формате .txt)
Блоков в выравниваниях, соответственно	31.7% и 31.4%	17.7% и 17.5%
Совпадающие блоки	(315,316)=(320, 321); (379,380)=(384,385)
Список блоков одинаково выровненных колонок	(26,29)=(22,25) (69,79)=(68,78) (85,88)=(89,92) (98,99)=(102,103) (105,108)=(109,112) (110,113)=(114,117) (116,122)=(120,126) (124,126)=(128,130) (128,138)=(132,142) (164,165)=(164,165) (184,185)=(184,185) (211,216)=(214,219) (227,230)=(230,233) (231,232)=(228,229) (234,235)=(237,238) (247,249)=(250,252) (252,253)=(255,256) (255,256)=(258,259) (259,262)=(262,265) (283,286)=(288,291) (292,293)=(297,298) (315,316)=(320,321) (328,332)=(333,337) (337,354)=(342,359) (379,380)=(384,385) (385,390)=(390,395) (394,395)=(399,400) (398,406)=(403,411) (412,413)=(417,418) (416,417)=(421,422)	(25,37)=(21,33) (39,46)=(35,42) (67,68)=(63,64) (80,81)=(76,77) (83,88)=(79,84) (116,117)=(114,115) (121,122)=(119,120) (211,212)=(216,217) (214,216)=(219,221) (227,231)=(232,236) (248,250)=(253,255) (252,253)=(257,258) (255,256)=(260,261) (283,285)=(288,290) (291,293)=(296,298) (315,316)=(320,321) (318,319)=(323,324) (332,333)=(337,338) (363,367)=(368,372) (379,380)=(384,385) (394,396)=(399,401)

На выравнивание программой MUSCLE больше похоже выравнивание программой MAFFT, чем T-coffee, т.к. при одинаковых длинах выравниваний, в первом случае больше количество и самих блоков, и колонок в них (суммарно), тогда как количество одиночных колонок почти одинаково.
В целом, все три выравнивания выявляют достаточно похожие консервативные участки последовательностей.

3. Построение выравнивания по совмещению структур и сравнение его с выравниванием программой MSA

Для белков 1qfw, 5bq8 и 7utz из домена PF00007 было получено множественное совмещение структур (см. рис. 1) с помощью программы PDBeFold. 3D-structure

Рис. 1. Визуализация множественного совмещения 3D-структур белков: 1qfw - красный; 5bq8 - синий; 7utz - оранжевый.

Последовательности из выравнивания PDBeFold были выровнены программой MUSCLE. Далее приведено сравнение двух выравниваний: полученное по совмещению структур (первое, выравнивание в формате .fa) и программой MUSCLE (второе, выравнивание в формате .fa). Проект JalView с выравниваниями: по ссылке.

Комментарий	PDB и MUSCLE
Длина выравниваний, соответственно	129 и 123
Найдено блоков	6
Колонок в блоках	46
Одиночных колонок	12 (список в формате .txt)
Блоков в выравниваниях, соответственно	35.7% и 37.4%
Список блоков одинаково выровненных колонок	(7,18)=(7,18) (36,38)=(36,38) (67,71)=(61,65) (73,85)=(67,79) - максимальный совпадающий блок (92,102)=(86,96) (106,107)=(100,101)

Самые крупные несовпадающие участки не превышают длину в 28 позиций (это значение достигается в первом выравнивании), что составляет примерно пятой части первого выравнивания.
Программа PDBeFold выравнивает структуры по Cα-атомам - таким образом неконсервативные (в не структурном выравнивании) аминокислотные остатки могут оказаться расположенными в пространстве одинаково относительно Сα-атома - т.е. оказаться в одной колонке в выравнивании. Однако в данном случае совпадение двух выравниваний достаточно велико (выше 35%).

4. Описание MSA-программы: Clustal Omega

Clustal Omega — алгоритм для множественного выравнивания последовательностей, предназначенный для работы с большими наборами данных.
В отличие от ClustalW, Clustal Omega использует, среди прочего, направляющее дерево, рассчитанное с помощью алгоритма mBED[1], который может кластеризовать большое количество последовательностей. Также программа использует HMM - скрытые марковские модели - вероятностные профили вместо непосредственно букв в последовательностях. Это ускоряет процесс и повышает качество выравнивания [2].
После построения направляющих деревьев выполняется множественное выравнивание с использованием HHalign, следуя заданной направляющим деревом кластеризации[3].
Согласно результатам сравнения программ на BaliBase[4], время работы программы Clustal Omega 539.91 (с), что сравнительно невелико и меньше, чем ClustalW.

Источники

[1] Fabian Sievers, Desmond G Higgins, Clustal Omega, accurate alignment of very large numbers of sequences.
Methods Mol Biol. 2014
https://pubmed.ncbi.nlm.nih.gov/24170397/

[2] Johannes Söding, Protein homology detection by HMM-HMM comparison.
Bioinformatics. 2005
https://pubmed.ncbi.nlm.nih.gov/15531603/

[3] EMBOSS Homepage, EMBASSY: CLUSTALOMEGA: eomega;
https://emboss.sourceforge.net/apps/release/6.4/embassy/clustalomega/eomega.html

[4] Материалы с сайта kodomo, слайд 12; так же по ссылке https://doi.org/10.1093/bib/bbac069