Для сравнения программ выравнивания надо выбрать семейство Pfam. Далеко ходить не будет, возьмём то же самое, что в 11 и 12 практикуме.
ID: Rep_trans
AC: PF02486
Последовательностей: 25
Структуры: 3
Выровняем последовательности с помощью трёх разных программ:
ClustalW (1) - прогрессивное выравнивание
MAFFT (2) - итеративное рафинирование
ProbCons (3) - методы, основанные на согласованности
Все 3 программы используют разные методы работы, так что мы сможем посмотреть, чем они отличаются.
Проект JalviewСравнение выравниваний
Длина выравнивания ClustalW: 234
Длина выравнивания MAFFT: 295
Длина выравнивания ProbCons: 276
Сравниваемые выравнивания | Участки совпадения | Участки несовпадения* |
---|---|---|
ClustalW+MAFFT | (1,11)=(1,11) длина 11; (73,75)=(107,109) длина 3; (84,92)=(118,126) длина 9; (109,117)=(146,154) длина 9; (187,204)=(244,261) длина 8 | В (1): (12,72); (76,83); (93,108); (118,186); (205,234) Во (2): (12,106); (110,117); (127,145); (155,243); (262,295) |
ClustalW+ProbCons | (1,14)=(1,14) длина 14; (25,26)=(26,27) длина 2; (69,75)=(94,100) длина 7; (81,92)=(106,117) длина 2; (109,113)=(137,141) длина 5; (141,142)=(170,171) длина 2; (191,204)=(231,244) длина 14 | В (1): (15,24); (27,68); (76,80); (93,108); (114,140); (143,190); (205,234) В (3): (15,25); (28,93); (101,105); (118,136); (142,169); (172,230); (245,276) |
MAFFT+ProbCons | (1,11)=(1,11) длина 11; (107,109)=(98,100) длина 3; (118,128)=(109,119) длина 11; (146,150)=(137,141) длина 5; (248,261)=(231,244) длина 14; (265,274)=(248,257) длина 10 | Во (2): (12,106); (110,117); (129,145); (151,247); (262,264); (275,295) В (3): (12,97); (101,108); (120,136); (142,230); (245,247); (258,276) |
*Идут чётко по порядку, соответствие по номеру в ряду
Все 3 выравнивания значительно отличаются друг от друга. Если сравнивать ClustalW и MAFFT, помимо уже описанных блоков отдельно совпадающих колонок нет. Процент совпадающих колонок в выравнивании ClustalW: 17,09%. Процент в выравнивании MAFFT: 13,56%. В выравнивании (1) меньше небольших участков, разделённых гэпами. (2) выравнивание длинее на 61 колонку как раз за счёт большого количества гэпов, которые ещё и сильно разделяют последовательности.
Если смотреть на выравнивания ClustalW и ProbCons, они тоже имеют маленький процент сходства. Процент совпадающих колонок в выравнивании ClustalW: 19,66%. Процент в выравнивании ProbCons: 16,67%. Как и в выравнивании (2), в (3) много гэпов и есть маленькие блоки, отделённые гэпами. Но при этом выравнивания (2) и (3) тоже имеют маленький процент совпадения (18,31% и 19,57% соответственно). Это говорит о значительном различии всех 3 выравниваний, что объясняется разными алгоритмами, которые лежат в их основе.
Сравнение выравниваний структур
Сравниваемые выравнивания | Участки совпадения | Участки несовпадения* |
---|---|---|
MSAprobs(4)+PDB(5) | (105,111)=(86,92) длина 7; (137,150)=(123,136) длина 14; (192,219)=(175,202) длина 8; (232,243)=(215,226) длина 12 | В (4): (1,104); (112,136); (151,191); (220,231); (244,329) В (5): (1,85); (93,122); (137,174); (203,214); (227,332) |
*Идут чётко по порядку, соответствие по номеру в ряду
Длина выравнивания MSAprobs: 329
Длина выравнивания PDB: 332
Процент совпадающих колонок в выравнивании MSAprobs: 12,46%
Процент совпадающих колонок в выравнивании PDB: 12,35%
Выравнивания имеют маленький процент совпадающих колонок. Видно, что программы множественного выравнивания могут не отражать совпадения в 3D структуре, как это представленно здесь. Программа (4) сделала выравнивание без учёта пространственной структуры. Выравнивания сильно отличаются друг от друга.
MAFFT (multiple alignment using fast Fourier transform)
Это программа для множественного выравнивания последовательностей (белков или нуклеиновых кислот). Она использует алгоритмы, основанные на быстром преобразовании Фурье (FFT), что позволяет ускорять сравнение последовательностей и улучшать качество выравнивания.
Этапы работы программы:
Пример использования в командной строке:
mafft --auto input.fasta > output.aln