Алгоритмы и программы множественного выравнивания

Для сравнения программ выравнивания надо выбрать семейство Pfam. Далеко ходить не будет, возьмём то же самое, что в 11 и 12 практикуме.

ID: Rep_trans

AC: PF02486

Последовательностей: 25

Структуры: 3

Выровняем последовательности с помощью трёх разных программ:

ClustalW (1) - прогрессивное выравнивание

MAFFT (2) - итеративное рафинирование

ProbCons (3) - методы, основанные на согласованности

Все 3 программы используют разные методы работы, так что мы сможем посмотреть, чем они отличаются.

Проект Jalview

Сравнение выравниваний

Длина выравнивания ClustalW: 234

Длина выравнивания MAFFT: 295

Длина выравнивания ProbCons: 276

Сравниваемые выравнивания Участки совпадения Участки несовпадения*
ClustalW+MAFFT (1,11)=(1,11) длина 11; (73,75)=(107,109) длина 3; (84,92)=(118,126) длина 9; (109,117)=(146,154) длина 9; (187,204)=(244,261) длина 8 В (1): (12,72); (76,83); (93,108); (118,186); (205,234)
Во (2): (12,106); (110,117); (127,145); (155,243); (262,295)
ClustalW+ProbCons (1,14)=(1,14) длина 14; (25,26)=(26,27) длина 2; (69,75)=(94,100) длина 7; (81,92)=(106,117) длина 2; (109,113)=(137,141) длина 5; (141,142)=(170,171) длина 2; (191,204)=(231,244) длина 14 В (1): (15,24); (27,68); (76,80); (93,108); (114,140); (143,190); (205,234)
В (3): (15,25); (28,93); (101,105); (118,136); (142,169); (172,230); (245,276)
MAFFT+ProbCons (1,11)=(1,11) длина 11; (107,109)=(98,100) длина 3; (118,128)=(109,119) длина 11; (146,150)=(137,141) длина 5; (248,261)=(231,244) длина 14; (265,274)=(248,257) длина 10 Во (2): (12,106); (110,117); (129,145); (151,247); (262,264); (275,295)
В (3): (12,97); (101,108); (120,136); (142,230); (245,247); (258,276)

*Идут чётко по порядку, соответствие по номеру в ряду

Все 3 выравнивания значительно отличаются друг от друга. Если сравнивать ClustalW и MAFFT, помимо уже описанных блоков отдельно совпадающих колонок нет. Процент совпадающих колонок в выравнивании ClustalW: 17,09%. Процент в выравнивании MAFFT: 13,56%. В выравнивании (1) меньше небольших участков, разделённых гэпами. (2) выравнивание длинее на 61 колонку как раз за счёт большого количества гэпов, которые ещё и сильно разделяют последовательности.

Если смотреть на выравнивания ClustalW и ProbCons, они тоже имеют маленький процент сходства. Процент совпадающих колонок в выравнивании ClustalW: 19,66%. Процент в выравнивании ProbCons: 16,67%. Как и в выравнивании (2), в (3) много гэпов и есть маленькие блоки, отделённые гэпами. Но при этом выравнивания (2) и (3) тоже имеют маленький процент совпадения (18,31% и 19,57% соответственно). Это говорит о значительном различии всех 3 выравниваний, что объясняется разными алгоритмами, которые лежат в их основе.

Сравнение выравниваний структур

Проект Jalview
Сравниваемые выравнивания Участки совпадения Участки несовпадения*
MSAprobs(4)+PDB(5) (105,111)=(86,92) длина 7; (137,150)=(123,136) длина 14; (192,219)=(175,202) длина 8; (232,243)=(215,226) длина 12 В (4): (1,104); (112,136); (151,191); (220,231); (244,329)
В (5): (1,85); (93,122); (137,174); (203,214); (227,332)

*Идут чётко по порядку, соответствие по номеру в ряду

Совмещение трёх структур

Длина выравнивания MSAprobs: 329

Длина выравнивания PDB: 332

Процент совпадающих колонок в выравнивании MSAprobs: 12,46%

Процент совпадающих колонок в выравнивании PDB: 12,35%

Выравнивания имеют маленький процент совпадающих колонок. Видно, что программы множественного выравнивания могут не отражать совпадения в 3D структуре, как это представленно здесь. Программа (4) сделала выравнивание без учёта пространственной структуры. Выравнивания сильно отличаются друг от друга.

MAFFT (multiple alignment using fast Fourier transform)

Это программа для множественного выравнивания последовательностей (белков или нуклеиновых кислот). Она использует алгоритмы, основанные на быстром преобразовании Фурье (FFT), что позволяет ускорять сравнение последовательностей и улучшать качество выравнивания.

Этапы работы программы:

  1. Попарное выравнивание всех последовательностей
  2. Строится направляющее дерево с помощью матрицы расстояний
  3. Прогрессивное выравнивание (как в ClustalW), где выравнивание выполняется от листьев к корню
  4. Итеративное выравнивание (например, G-INS-i, L-INS-i, E-INS-i), которое улучшает точность за счет повторного уточнения выравнивания

Пример использования в командной строке:

mafft --auto input.fasta > output.aln