Алгоритмы и программы множественного выравниванивания. Базы гомологичных доменов

Чингариева Алия

Студентка первого курса факультета биоинженерии и биоинформатики МГУ им. М. В. Ломоносова,

2024 год

Сравните выравнивания одних и тех же последовательностей тремя разными программами.

Для выполнения задания были использованы белки из практикума 9, полученные по мнемоникам функций. В Jalview использовались программы: MUSCLE, MAFFT и T-coffee. Выравнивание MUSCLE выступало в качестве референсного.



Проект в Jalview.

Для выполнения задания использовалась программа, написанная Ксенией Кирцовой.



(s1, f1) (s2, f2) Длина
(1-46) (1-46) 46
(61-369) (62-370) 309
(378-407) (382-411) 30
(415-418) (419-422) 4

Таблица 1. Достоверные блоки относительно выравнивания по MUSCLE и MAFFT.



(s1, f1) (s2, f2) Длина
(6-47) (6-47) 42
(58-296) (59-297) 239
(305-384) (306-385) 80
(389-407) (390-408) 19
(410) (411) 1
(414-418) (415-419) 5

Таблица 2. Достоверные блоки относительно выравнивания по MUSCLE и T-coffee.



Общая длина достоверных колонок в выравнивании MUSCLE и MAFFT равна 389, в MUSCLE и T-coffee — 386. На основании этого можно сделать вывод, что выравнивания MUSCLE и MAFFT более схожи, чем MUSCLE и T-coffee. Вероятно, это указывает на то, что алгоритмы програм выравнивания MUSCLE и MAFFT более схожи.

Построение выравнивания по совмещению структур и сравнение его с выравниванием программой MSA

Я выбрала белки с доменами из семейства Cytochrome b/b6/petB (ID: Cytochrome_B; AC: PF00033): 2FYN, 2YIU, 6XKT. В роли референсного выступил белок 2FYN.

Пространственное выравнивание было выполнено с помощью Pairwise Structure Alignment на сайте PDB алгоритмом TM-align.

изображение не загрузилось

Рис. 1. Результат выравнивания трёх белковых последовательностей.



изображение не загрузилось

Рис. 2. Результат выравнивания трёх белковых последовательностей.



изображение не загрузилось

Рис. 3. Совмещение структур.




Далее с помощью текстового редактора я произвела множественное выравнивание.



Было произведено ещё одно выравнивание в Jalview с использованием программы MUSCLE. Повторно использовалась программа Ксении Кирцовой, которая выдала список достоверных выравниваний относительно этих блоков.



(s1, f1) (s2, f2) Длина
(1-18) (1-18) 18
(31-232) (30-231) 202

Таблица 3. Достоверные блоки относительно выравниваний.

Описание программы Mafft

MAFFT (Multiple Alignment using Fast Fourier Transform) — это мощная программа, предназначенная для выполнения множественного выравнивания последовательностей.

Входные данные: перед началом работы в MAFFT загружается набор последовательностей в формате fasta, а также возможны другие поддерживаемые форматы.

Методы выравнивания: L-INS-i, FFT-NS-2, G-INS-i.

Результат работы: на выходе MAFFT генерирует файл с выравненными последовательностями в выбранном формате.


Основные этапы работы программы:

  • Предварительное выравнивание: cначала программа выполняет попарное выравнивание всех входных последовательностей, используя оптимизированный алгоритм локального выравнивания, что позволяет быстро и точно определить начальные соответствия между последовательностями.
  • Основное прогрессивное выравнивание: MAFFT задействует модифицированную версию классического прогрессивного алгоритма. В рамках этого этапа наиболее схожие группы последовательностей объединяются и выравниваются с применением весовых матриц сумм пар (Weighted Sum-of-Pairs scoring matrices).
  • Итеративное уточнение выравнивания: выравнивание уточняется за счет многократного перемещения блоков внутри общего выравнивания для максимизации суммарного веса. Этот процесс повторяется несколько раз для улучшения точности выравнивания.
  • Окончательная обработка: на заключительном этапе MAFFT применяет дополнительные методы доработки выравнивания, такие как добавление пропусков и другие улучшения, для дальнейшего повышения качества выравнивания.