Программа для сравнения разных выравниваний одних и тех же последовательностей была написана совместно с Косаревой Марией.
Программа запускается из командной строки следующим образом:
python alignment.py
С опцией -h выдается информация о том, как запустить программу и требования ко входным данным:
usage: alignment.py [-h] [-o O] file1 file2
positional arguments:
file1
file2
options:
-h, --help
-o O
Выходной файл содержит список (i, j) одинаково выровненных колонок.
Работа программы была проверена на выравниваниях, которые использовались для выполнения задания в классе(PF00145_seed-reduced и PF00145_seed-tcoffee-reduced).Вывод нашей программы проверялся вручную визуально в Jalview. Было установлено, что программа работает верно.
В stdout выводится длина первого и второго выравниваний, % одинаково выровненных колонок, одинаково выровненные блоки.
Последовательности были взяты из прошлого (11) практикума: seed выравнивание из 61 последовательности для домена PF02467. Все выравнивания были выполнены в Jalview и затем сравнены в командной строке с помощью раннее написанного скрипта.
Выравнивание А - tcoffee, B - muscle, C- mafft.
Сравнение выравниваний А и В:
Длина первого выранивания: 108
Длина второго выравнивания: 104
Совпадающих колонок: 54
% одинаково выровненных колонок первого выравнивания: 50.0
% одинаково выровненных колонок второго выравнивания: 51.92
ОДИНАКОВО ВЫРОВНЕННЫЕ БЛОКИ:
(1,10)=(1,10)
(12,13)=(12,13)
(15,16)=(15,16)
(44,51)=(41,48)
(55,59)=(51,55)
(67,70)=(63,66)
(73,79)=(69,75)
(82,87)=(78,83)
(90,95)=(86,91)
(99,100)=(95,96)
ОДИНАКОВО ВЫРОВНЕННЫЕ КОЛОНКИ ВНЕ БЛОКОВ:
(64,64)=(60,60)
Сравнение выравниваний А и С:
Длина первого выранивания: 108
ОДИНАКОВО ВЫРОВНЕННЫЕ БЛОКИ:
(1,9)=(1,9)
(13,14)=(13,14)
(46,51)=(41,46)
(55,59)=(49,53)
(67,70)=(61,64)
(73,79)=(67,73)
(82,87)=(76,81)
(90,95)=(84,89)
(99,100)=(93,94)
ОДИНАКОВО ВЫРОВНЕННЫЕ КОЛОНКИ ВНЕ БЛОКОВ:
(64,64)=(58,58)
Выравнивание В больше похоже на А, так как больший процент одинаково выровненных колонок и совпадающих колонок, совпадают более непрерывные блоки. Более консервативными являются центральные блоки, так как они совпадают у всех трех выравниваний. Отличия в выравниваниях, по большей части, из-за разного расположения гэпов.
На сайте pfam домена PF02467 были выбраны белки, для которых расшифрованы структуры. Выбранные белки: 5OAY, 6ONO, 7KUF.
Структурное выравнивание было сделано и скачено на сайте PDBeFOLD, также было скачено в формате .rasmol пространственная конфигурация наложения этих структур.
Рис. 1. Изображение совмещения структур.
Множественное выравнивание было сделано из структурного с помощью алгоритма MAFFT.
Результат работы скрипта по сравнению разных выравниваний одних и тех же последовательностей:
Длина первого выравнивания: 88
Длина второго выравнивания: 84
Совпадающих колонок: 25
% одинаково выровненных колонок первого выравнивания: 28.41
% одинаково выровненных колонок второго выравнивания: 29.76
ОДИНАКОВО ВЫРОВНЕННЫЕ БЛОКИ:
(10,15)=(8,13)
(20,23)=(17,20)
(33,43)=(30,40)
(85,86)=(79,80)
ОДИНАКОВО ВЫРОВНЕННЫЕ КОЛОНКИ ВНЕ БЛОКОВ:
(1,1)=(1,1)
(28,28)=(25,25)
Файлы .fasta: структурное выравнивание, множественное выравнивание.
Проект .jvp с двумя выравниваниями.
Совпадает всего 25 колонок, что составляет около 29% от обеих последовательностей, значит, структурное выравнивание значительно отличается от реализованного другим алгоритмом. На наложении структур видно, что есть протяженные консервативные участки (т. к. пространственные конфигурации почти целиком совпадают: совпали 3 альфа спирали - в них и содержатся одинаково выровненные блоки; и ,очевидно, отличаются N- и C-концы белков, так как это более вариабельные участки).
MAFFT - одна из программ множественного выравнивания. В свое время она обладала преимуществом, так как реализовывала 2 новые стратегии: гомологичные участки быстро определяются благодаря быстрому преобразованию Фурье (аминокислотная последовательность преобразуется в структуру, состояющую из значений объема и полярности каждого остатка); а также упрощенный подсчет scores, который занимает меньше времени и не так сильно загружате cpu.¹. MAFFT работает примерно в 100 раз быстрее T-COFFEE без потери accuracy.
MAFFT реализует различные алгоритмы выравнивания²:
1) Прогрессивный метод - один из самых быстрых. Сначала строится предварительная матрица дистанций с помощью подсчета общих 6 кортежей между каждыми последовательностями; затем строится дерево и последовательности выравниваются согласно ветвлению. Алгоритм построения предварительного дерева похож на таковой при быстром построении дерева у ClustalW.²
Рис. 2. Всего существует 2 типа прогрессивного метода:
2) Итеративный метод основан на прогресивном, имеет лучший accururacy благодаря итеративному методу уточнения.²
Рис. 3. Итеративный метод выравнивания MAFFT.
3) Метод итеративного уточнения c использованием WSP score был создан для более сложных случаев. Содержит новую функцию, основанную на WSP (взвешенная сумма пар) и похожий на COFFEE score - они оценивают схожесть в множественном и парном выравниваниях.²
Рис. 4. Метод итеративного уточнения c использованием WSP score.