Алгоритмы и программы множественного выравнивания. Базы гомологичных доменов
Сравнение выравнивания одних и тех же последовательностей тремя разными программами
Для выравнивания я выбрала белки из 5 пункта 9 практикума: ACYP_MOOTA, ACYP_GRABC, ACYP_PASMU, ACYP_LISMF, ACYP_STAAR, ACYP_BASCU, ACYP_ECOLI.
В качестве программ для выравнивания я выбрала следующие 3 программы: MUSCLE, MAFFT, CLUSTAL. Для сравнения результатов работ трех программ я использовала программный код, написанный Ксенией Кирцовой
Таким образом, достоверные блоки относительно выравнивания по MUSCLE - MAFFT:
(s1,f1) | (s2,f2) | len |
(1,64) | (1,64) | 64 |
(73,77) | (74,78) | 5 |
(91,99) | (92,100) | 9 |
И относительно MUSCLE - CLUSTAL:
(s1,f1) | (s2,f2) | len |
(12,64) | (10,62) | 53 |
(69,77) | (67,75) | 9 |
Общая длина достоверных колонок в выравнивании MUSCLE-MAFFT равна 78, а в выравнивании MUSCLE-CLUSTAL - 62. Из этого можно сделать вывод, что выравнивания MUSCLE with Defaults и MAFFT with defaults немного более схожи, чем MUSCLE with Defaults и CLUSTAL with Defaults. Это может означать, что программы выравнивания MUSCLE и MAFFT имеют более схожий алгоритм работы, чем MUSCLE и CLUSTAL
Построение выравнивания по совмещению структур и сравнение его с выравниванием MSA
Для выполнения задания я выбрала семейство Atrial natriuretic peptide (AC:PF00212). В нем выбрала три белка: 1jdp, 1yk0, 1t34
Пространственное выравнивание выполнила на сайте PDB. Референсным белком взяла 1jdp
Далее из двух парных выравниваний pdb посредством правок последовательностей в текстовом редакторе сделала множественное выравнивание и построила множественное выравнивание последовательностей этих белков программой MAFFT в Jalview. Сравнила два выравнивания при помощи программы, которую я упоминула во 2 задании.
Результаты сравнения множественного выравнивания по совмещению структур и множественного выравнивания программой Mafft
Длина первого выравнивания - 436, второго - 443. Процент выровненных колонок первого - 97,71%, второго - 96,16%
(s1,f1) | (s2,f2) | len |
(1,41) | (1,41) | 41 |
(85,156) | (88,159) | 72 |
(170,186) | (173,189) | 17 |
(195,254) | (199,258) | 60 |
(266,312) | (270,316) | 47 |
(324,390) | (328,394) | 67 |
(394,410) | (398,414) | 17 |
Нашлось 7 блоков. Интересно заявить, что одинаковыми оказались 72 колонки, входящие в состав одного блока. Это вероятнее всего означает, что этот блок сохранил и первичную, и вторичную структуры, а значит, что данный блок является важной частью последовательности. Опираясь на все сказанное выше, могу сделать вывод, что при сравнивании множественного выравнивания по совмещению структур и множественного выравнивания программой Mafft наблюдается много сходств между этими двумя выравниваниями. Следовательно они похожи друг на друга!
Ссылка на проект в JalView (первое окно - 3D выравнивание PDB; второе окно - множественное выравнивание, построенное в тектовом редакторе; третье окно - множественное выравнивание последовательностей белков Mafft'ом)Описание работы программы Mafft.
MAFFT (Multiple Alignment using Fast Fourier Transform) - это популярная программа для множественного выравнивания последовательностей нуклеиновых кислот (ДНК/РНК) и белков. Она была разработана Кадзутака Катохом и его коллегами в Киотском университете. MAFFT широко используется в биоинформатике и молекулярной биологии для выравнивания и сравнения последовательностей.
Работа программы MAFFT состоит из следующих основных этапов:
Предварительное выравнивание На этом этапе программа быстро выравнивает все входные последовательности попарно с использованием оптимизированного алгоритма локального выравнивания. Это позволяет получить приблизительное множественное выравнивание, которое служит начальной точкой для следующего этапа.
Основное прогрессивное выравнивание После получения начального выравнивания, MAFFT использует модифицированный вариант классического алгоритма прогрессивного выравнивания. На каждом шаге две наиболее схожие группы последовательностей (кластеры) объединяются и выравниваются с использованием метода весовых матриц сумм пар (Weighted Sum-of-Pairs scoring matrices).
Итеративное уточнение выравнивания Полученное на предыдущем этапе выравнивание затем уточняется путем перемещения блоков (фрагментов) в пределах выравнивания для максимизации суммарного веса. Эта процедура повторяется многократно для достижения оптимального результата.
Окончательная обработка На заключительном этапе MAFFT применяет дополнительные методы для улучшения качества выравнивания, такие как удаление выбросов, добавление пропусков и другие.
Ключевые особенности MAFFT:
Высокая скорость работы за счет использования быстрого преобразования Фурье и эвристических алгоритмов.
Возможность обрабатывать большие наборы данных (тысячи последовательностей).
Поддержка различных стратегий выравнивания для достижения оптимального результата.
Учет вторичной и третичной структуры белков при выравнивании.
Совместимость с различными форматами входных и выходных данных.
MAFFT зарекомендовала себя как одна из наиболее точных и эффективных программ для множественного выравнивания последовательностей, особенно при работе с большими наборами данных. Ее широко используют в исследовательских проектах по всему миру.