Практикум 12.

2. Сравнение выравниваний

Для 11 последовательностей, в которых встречается домен PF00007 (из практикума 11), было построено три выравнивания: MUSCLE; MAFFT; T-coffee.
Список ID выбранных последовательностей: CCN1_MOUSE, CCN1_HUMAN, CCN1_PANTR, CCN6_HUMAN, GTHB1_THUOB, GTHB1_FUNHE, TSHB_HUMAN, TSHB_MOUSE, TSHB_BOVW, TSHB_RAT, TSHB_PIG.
Проект JalView с этими тремя выравниваниями: по ссылке.

КомментарийMUSCLE и MAFFTMUSCLE и T-coffee
Длина выравниваний, соответственно419 и 424419 и 424
Найдено блоков3021
Колонок в блоках13374
Одиночных колонок126 (список в формате .txt)125 (список в формате .txt)
Блоков в выравниваниях, соответственно31.7% и 31.4%17.7% и 17.5%
Совпадающие блоки(315,316)=(320, 321); (379,380)=(384,385)
Список блоков одинаково выровненных колонок (26,29)=(22,25)
(69,79)=(68,78)
(85,88)=(89,92)
(98,99)=(102,103)
(105,108)=(109,112)
(110,113)=(114,117)
(116,122)=(120,126)
(124,126)=(128,130)
(128,138)=(132,142)
(164,165)=(164,165)
(184,185)=(184,185)
(211,216)=(214,219)
(227,230)=(230,233)
(231,232)=(228,229)
(234,235)=(237,238)
(247,249)=(250,252)
(252,253)=(255,256)
(255,256)=(258,259)
(259,262)=(262,265)
(283,286)=(288,291)
(292,293)=(297,298)
(315,316)=(320,321)
(328,332)=(333,337)
(337,354)=(342,359)
(379,380)=(384,385)
(385,390)=(390,395)
(394,395)=(399,400)
(398,406)=(403,411)
(412,413)=(417,418)
(416,417)=(421,422)
(25,37)=(21,33)
(39,46)=(35,42)
(67,68)=(63,64)
(80,81)=(76,77)
(83,88)=(79,84)
(116,117)=(114,115)
(121,122)=(119,120)
(211,212)=(216,217)
(214,216)=(219,221)
(227,231)=(232,236)
(248,250)=(253,255)
(252,253)=(257,258)
(255,256)=(260,261)
(283,285)=(288,290)
(291,293)=(296,298)
(315,316)=(320,321)
(318,319)=(323,324)
(332,333)=(337,338)
(363,367)=(368,372)
(379,380)=(384,385)
(394,396)=(399,401)

На выравнивание программой MUSCLE больше похоже выравнивание программой MAFFT, чем T-coffee, т.к. при одинаковых длинах выравниваний, в первом случае больше количество и самих блоков, и колонок в них (суммарно), тогда как количество одиночных колонок почти одинаково.
В целом, все три выравнивания выявляют достаточно похожие консервативные участки последовательностей.

3. Построение выравнивания по совмещению структур и сравнение его с выравниванием программой MSA

Для белков 1qfw, 5bq8 и 7utz из домена PF00007 было получено множественное совмещение структур (см. рис. 1) с помощью программы PDBeFold. 3D-structure

Рис. 1. Визуализация множественного совмещения 3D-структур белков: 1qfw - красный; 5bq8 - синий; 7utz - оранжевый.

Последовательности из выравнивания PDBeFold были выровнены программой MUSCLE. Далее приведено сравнение двух выравниваний: полученное по совмещению структур (первое, выравнивание в формате .fa) и программой MUSCLE (второе, выравнивание в формате .fa). Проект JalView с выравниваниями: по ссылке.

КомментарийPDB и MUSCLE
Длина выравниваний, соответственно129 и 123
Найдено блоков6
Колонок в блоках46
Одиночных колонок12 (список в формате .txt)
Блоков в выравниваниях, соответственно35.7% и 37.4%
Список блоков одинаково выровненных колонок (7,18)=(7,18)
(36,38)=(36,38)
(67,71)=(61,65)
(73,85)=(67,79) - максимальный совпадающий блок
(92,102)=(86,96)
(106,107)=(100,101)

Самые крупные несовпадающие участки не превышают длину в 28 позиций (это значение достигается в первом выравнивании), что составляет примерно пятой части первого выравнивания.
Программа PDBeFold выравнивает структуры по Cα-атомам - таким образом неконсервативные (в не структурном выравнивании) аминокислотные остатки могут оказаться расположенными в пространстве одинаково относительно Сα-атома - т.е. оказаться в одной колонке в выравнивании. Однако в данном случае совпадение двух выравниваний достаточно велико (выше 35%).

4. Описание MSA-программы: Clustal Omega

Clustal Omega — алгоритм для множественного выравнивания последовательностей, предназначенный для работы с большими наборами данных.
В отличие от ClustalW, Clustal Omega использует, среди прочего, направляющее дерево, рассчитанное с помощью алгоритма mBED[1], который может кластеризовать большое количество последовательностей. Также программа использует HMM - скрытые марковские модели - вероятностные профили вместо непосредственно букв в последовательностях. Это ускоряет процесс и повышает качество выравнивания [2].
После построения направляющих деревьев выполняется множественное выравнивание с использованием HHalign, следуя заданной направляющим деревом кластеризации[3].
Согласно результатам сравнения программ на BaliBase[4], время работы программы Clustal Omega 539.91 (с), что сравнительно невелико и меньше, чем ClustalW.

Источники

[1] Fabian Sievers, Desmond G Higgins, Clustal Omega, accurate alignment of very large numbers of sequences.
Methods Mol Biol. 2014
https://pubmed.ncbi.nlm.nih.gov/24170397/

[2] Johannes Söding, Protein homology detection by HMM-HMM comparison.
Bioinformatics. 2005
https://pubmed.ncbi.nlm.nih.gov/15531603/

[3] EMBOSS Homepage, EMBASSY: CLUSTALOMEGA: eomega;
https://emboss.sourceforge.net/apps/release/6.4/embassy/clustalomega/eomega.html

[4] Материалы с сайта kodomo, слайд 12; так же по ссылке https://doi.org/10.1093/bib/bbac069