2. Сравнение выравниваний
Для 11 последовательностей, в которых встречается домен PF00007 (из практикума 11), было построено три выравнивания: MUSCLE; MAFFT; T-coffee.
Список ID выбранных последовательностей: CCN1_MOUSE, CCN1_HUMAN, CCN1_PANTR, CCN6_HUMAN, GTHB1_THUOB, GTHB1_FUNHE, TSHB_HUMAN, TSHB_MOUSE, TSHB_BOVW, TSHB_RAT, TSHB_PIG.
Проект JalView с этими тремя выравниваниями: по ссылке.
| Комментарий | MUSCLE и MAFFT | MUSCLE и T-coffee |
|---|---|---|
| Длина выравниваний, соответственно | 419 и 424 | 419 и 424 |
| Найдено блоков | 30 | 21 |
| Колонок в блоках | 133 | 74 |
| Одиночных колонок | 126 (список в формате .txt) | 125 (список в формате .txt) |
| Блоков в выравниваниях, соответственно | 31.7% и 31.4% | 17.7% и 17.5% |
| Совпадающие блоки | (315,316)=(320, 321); (379,380)=(384,385) | |
| Список блоков одинаково выровненных колонок |
(26,29)=(22,25) (69,79)=(68,78) (85,88)=(89,92) (98,99)=(102,103) (105,108)=(109,112) (110,113)=(114,117) (116,122)=(120,126) (124,126)=(128,130) (128,138)=(132,142) (164,165)=(164,165) (184,185)=(184,185) (211,216)=(214,219) (227,230)=(230,233) (231,232)=(228,229) (234,235)=(237,238) (247,249)=(250,252) (252,253)=(255,256) (255,256)=(258,259) (259,262)=(262,265) (283,286)=(288,291) (292,293)=(297,298) (315,316)=(320,321) (328,332)=(333,337) (337,354)=(342,359) (379,380)=(384,385) (385,390)=(390,395) (394,395)=(399,400) (398,406)=(403,411) (412,413)=(417,418) (416,417)=(421,422) |
(25,37)=(21,33) (39,46)=(35,42) (67,68)=(63,64) (80,81)=(76,77) (83,88)=(79,84) (116,117)=(114,115) (121,122)=(119,120) (211,212)=(216,217) (214,216)=(219,221) (227,231)=(232,236) (248,250)=(253,255) (252,253)=(257,258) (255,256)=(260,261) (283,285)=(288,290) (291,293)=(296,298) (315,316)=(320,321) (318,319)=(323,324) (332,333)=(337,338) (363,367)=(368,372) (379,380)=(384,385) (394,396)=(399,401) |
На выравнивание программой MUSCLE больше похоже выравнивание программой MAFFT, чем T-coffee, т.к. при одинаковых длинах выравниваний, в первом случае больше количество и самих блоков, и колонок в них (суммарно), тогда как количество одиночных колонок почти одинаково.
В целом, все три выравнивания выявляют достаточно похожие консервативные участки последовательностей.
3. Построение выравнивания по совмещению структур и сравнение его с выравниванием программой MSA
Для белков 1qfw, 5bq8 и 7utz из домена PF00007 было получено множественное совмещение структур (см. рис. 1) с помощью программы PDBeFold.
Рис. 1. Визуализация множественного совмещения 3D-структур белков: 1qfw - красный; 5bq8 - синий; 7utz - оранжевый.
Последовательности из выравнивания PDBeFold были выровнены программой MUSCLE. Далее приведено сравнение двух выравниваний: полученное по совмещению структур (первое, выравнивание в формате .fa) и программой MUSCLE (второе, выравнивание в формате .fa). Проект JalView с выравниваниями: по ссылке.
| Комментарий | PDB и MUSCLE |
|---|---|
| Длина выравниваний, соответственно | 129 и 123 |
| Найдено блоков | 6 |
| Колонок в блоках | 46 |
| Одиночных колонок | 12 (список в формате .txt) |
| Блоков в выравниваниях, соответственно | 35.7% и 37.4% |
| Список блоков одинаково выровненных колонок | (7,18)=(7,18) (36,38)=(36,38) (67,71)=(61,65) (73,85)=(67,79) - максимальный совпадающий блок (92,102)=(86,96) (106,107)=(100,101) |
Самые крупные несовпадающие участки не превышают длину в 28 позиций (это значение достигается в первом выравнивании), что составляет примерно пятой части первого выравнивания.
Программа PDBeFold выравнивает структуры по Cα-атомам - таким образом неконсервативные (в не структурном выравнивании) аминокислотные остатки могут оказаться расположенными в пространстве одинаково относительно Сα-атома - т.е. оказаться в одной колонке в выравнивании.
Однако в данном случае совпадение двух выравниваний достаточно велико (выше 35%).
4. Описание MSA-программы: Clustal Omega
Clustal Omega — алгоритм для множественного выравнивания последовательностей, предназначенный для работы с большими наборами данных.
В отличие от ClustalW, Clustal Omega использует, среди прочего, направляющее дерево, рассчитанное с помощью алгоритма mBED[1], который может кластеризовать большое количество последовательностей. Также программа использует HMM - скрытые марковские модели - вероятностные профили вместо непосредственно букв в последовательностях. Это ускоряет процесс и повышает качество выравнивания [2].
После построения направляющих деревьев выполняется множественное выравнивание с использованием HHalign, следуя заданной направляющим деревом кластеризации[3].
Согласно результатам сравнения программ на BaliBase[4], время работы программы Clustal Omega 539.91 (с), что сравнительно невелико и меньше, чем ClustalW.
Источники
[1] Fabian Sievers, Desmond G Higgins, Clustal Omega, accurate alignment of very large numbers of sequences.
Methods Mol Biol. 2014
https://pubmed.ncbi.nlm.nih.gov/24170397/
[2] Johannes Söding, Protein homology detection by HMM-HMM comparison.
Bioinformatics. 2005
https://pubmed.ncbi.nlm.nih.gov/15531603/
[3] EMBOSS Homepage, EMBASSY: CLUSTALOMEGA: eomega;
https://emboss.sourceforge.net/apps/release/6.4/embassy/clustalomega/eomega.html
[4] Материалы с сайта kodomo, слайд 12; так же по ссылке https://doi.org/10.1093/bib/bbac069