Алгоритмы и программы множественного выравнивания.

1. Реализация алгоритма сравнения разных выравниваний одних и тех же последовательностей.

Программа для сравнения разных выравниваний одних и тех же последовательностей была написана совместно с Косаревой Марией.

Программа запускается из командной строки следующим образом:

python alignment.py

С опцией -h выдается информация о том, как запустить программу и требования ко входным данным:

usage: alignment.py [-h] [-o O] file1 file2

positional arguments:
  file1
  file2
  
options:
  -h, --help 
  -o O

Выходной файл содержит список (i, j) одинаково выровненных колонок.

Работа программы была проверена на выравниваниях, которые использовались для выполнения задания в классе(PF00145_seed-reduced и PF00145_seed-tcoffee-reduced).Вывод нашей программы проверялся вручную визуально в Jalview. Было установлено, что программа работает верно.

В stdout выводится длина первого и второго выравниваний, % одинаково выровненных колонок, одинаково выровненные блоки.

2. Сравнение выравнивания одних и тех же последовательностей тремя разными программами A, B, C.

Последовательности были взяты из прошлого (11) практикума: seed выравнивание из 61 последовательности для домена PF02467. Все выравнивания были выполнены в Jalview и затем сравнены в командной строке с помощью раннее написанного скрипта.

Выравнивание А - tcoffee, B - muscle, C- mafft.

Сравнение выравниваний А и В:

Длина первого выранивания: 108
Длина второго выравнивания: 104
Совпадающих колонок: 54
% одинаково выровненных колонок первого выравнивания: 50.0
% одинаково выровненных колонок второго выравнивания: 51.92
ОДИНАКОВО ВЫРОВНЕННЫЕ БЛОКИ:
(1,10)=(1,10)
(12,13)=(12,13)
(15,16)=(15,16)
(44,51)=(41,48)
(55,59)=(51,55)
(67,70)=(63,66)
(73,79)=(69,75)
(82,87)=(78,83)
(90,95)=(86,91)
(99,100)=(95,96)
ОДИНАКОВО ВЫРОВНЕННЫЕ КОЛОНКИ ВНЕ БЛОКОВ: 
(64,64)=(60,60)

Сравнение выравниваний А и С:

Длина первого выранивания: 108

ОДИНАКОВО ВЫРОВНЕННЫЕ БЛОКИ:
(1,9)=(1,9)
(13,14)=(13,14)
(46,51)=(41,46)
(55,59)=(49,53)
(67,70)=(61,64)
(73,79)=(67,73)
(82,87)=(76,81)
(90,95)=(84,89)
(99,100)=(93,94)
ОДИНАКОВО ВЫРОВНЕННЫЕ КОЛОНКИ ВНЕ БЛОКОВ:
(64,64)=(58,58)

Все выравнивания в Jalview.

Выравнивание В больше похоже на А, так как больший процент одинаково выровненных колонок и совпадающих колонок, совпадают более непрерывные блоки. Более консервативными являются центральные блоки, так как они совпадают у всех трех выравниваний. Отличия в выравниваниях, по большей части, из-за разного расположения гэпов.

3. Построение выравнивания по совмещению структур и сравнение его с выравниванием MSA.

На сайте pfam домена PF02467 были выбраны белки, для которых расшифрованы структуры. Выбранные белки: 5OAY, 6ONO, 7KUF.

Структурное выравнивание было сделано и скачено на сайте PDBeFOLD, также было скачено в формате .rasmol пространственная конфигурация наложения этих структур.

Рис. 1. Изображение совмещения структур.
Рис. 1. Изображение совмещения структур.

Множественное выравнивание было сделано из структурного с помощью алгоритма MAFFT.

Результат работы скрипта по сравнению разных выравниваний одних и тех же последовательностей:


Длина первого выравнивания: 88
Длина второго выравнивания: 84
Совпадающих колонок: 25
% одинаково выровненных колонок первого выравнивания: 28.41
% одинаково выровненных колонок второго выравнивания: 29.76
ОДИНАКОВО ВЫРОВНЕННЫЕ БЛОКИ:
(10,15)=(8,13)
(20,23)=(17,20)
(33,43)=(30,40)
(85,86)=(79,80)
ОДИНАКОВО ВЫРОВНЕННЫЕ КОЛОНКИ ВНЕ БЛОКОВ:
(1,1)=(1,1)
(28,28)=(25,25)

Файлы .fasta: структурное выравнивание, множественное выравнивание.

Проект .jvp с двумя выравниваниями.

Совпадает всего 25 колонок, что составляет около 29% от обеих последовательностей, значит, структурное выравнивание значительно отличается от реализованного другим алгоритмом. На наложении структур видно, что есть протяженные консервативные участки (т. к. пространственные конфигурации почти целиком совпадают: совпали 3 альфа спирали - в них и содержатся одинаково выровненные блоки; и ,очевидно, отличаются N- и C-концы белков, так как это более вариабельные участки).

4. Краткое описание программы MSA.

MAFFT - одна из программ множественного выравнивания. В свое время она обладала преимуществом, так как реализовывала 2 новые стратегии: гомологичные участки быстро определяются благодаря быстрому преобразованию Фурье (аминокислотная последовательность преобразуется в структуру, состояющую из значений объема и полярности каждого остатка); а также упрощенный подсчет scores, который занимает меньше времени и не так сильно загружате cpu.¹. MAFFT работает примерно в 100 раз быстрее T-COFFEE без потери accuracy.

MAFFT реализует различные алгоритмы выравнивания²:

1) Прогрессивный метод - один из самых быстрых. Сначала строится предварительная матрица дистанций с помощью подсчета общих 6 кортежей между каждыми последовательностями; затем строится дерево и последовательности выравниваются согласно ветвлению. Алгоритм построения предварительного дерева похож на таковой при быстром построении дерева у ClustalW.²

Рис. 2. Всего существует 2 типа прогрессивного метода:

Всего существует 2 типа прогрессивного метода

2) Итеративный метод основан на прогресивном, имеет лучший accururacy благодаря итеративному методу уточнения.²

Рис. 3. Итеративный метод выравнивания MAFFT.

Итеративный метод выравнивания MAFFT

3) Метод итеративного уточнения c использованием WSP score был создан для более сложных случаев. Содержит новую функцию, основанную на WSP (взвешенная сумма пар) и похожий на COFFEE score - они оценивают схожесть в множественном и парном выравниваниях.²

Рис. 4. Метод итеративного уточнения c использованием WSP score.

Метод итеративного уточнения c использованием WSP score

Список литературы.

[1] Katoh K, Misawa K, Kuma K, Miyata T. MAFFT: a novel method for rapid multiple sequence alignment based on fast Fourier transform. Nucleic Acids Res. 2002 Jul 15;30(14):3059-66. doi: 10.1093/nar/gkf436. PMID: 12136088; PMCID: PMC135756.
[2] MAFFT multiple sequence alignment: Algorithms. — URL: https://mafft.cbrc.jp/alignment/software/algorithms/algorithms.html (дата обращения: 09.05.2026).