Практикум 13

Так моё семейство было большим и некоторые виды выравнивания грузились очень долго(одно так и не загрузилось), я выбрала семейство PF03641. Для сравнения выравниваний использовала программу, написанную Дмитрием Липченчуком .

Сравнение выравниваний

Выравнивания: muscle mafft t-coffe

MUSCLE vs MAFFT
MUSCLE	MAFFT	Длина блока
(1,28)	(1,28)	28
(44,53)	(44,53)	10
(65,67)	(65,67)	3
(72,81)	(72,81)	10
(86,87)	(86,87)	2
(96,143)	(97,144)	48
(156,161)	(157,162)	6
(196,208)	(198,210)	13
Всего блоков: 8	Совпадающих колонок: 107	Общая длина: 120

MAFFT vs T-COFFEE
MAFFT	T-COFFEE	Длина блока
(2,28)	(2,28)	27
(30,36)	(30,36)	7
(41,45)	(39,43)	5
(74,83)	(72,81)	10
(110,118)	(103,111)	9
(121,126)	(114,119)	6
(129,151)	(122,144)	23
(167,172)	(157,162)	6
(181,188)	(169,176)	8
(210,220)	(198,208)	11
Всего блоков: 10	Совпадающих колонок: 96	Общая длина: 112

MAFFT и MUSCLE демонстрируют высокую согласованность и могут считаться взаимозаменяемыми для выравнивания консервативных белковых семейств. T-COFFEE существенно отличается в обработке вариабельных регионов, что объясняется использованием дополнительной структурной информации и иным алгоритмическим подходом. Это обьясняет меньшее количество совпадающих колонок при сравнении T-COFFEE и MAFFT.Важно заметить, что у обеих пар есть пересекающиеся блоки, например (2,28).

Ручное выравнивание и Muscle

файл с выравниваниями:pr13.jvp

Были взяты 3 белка: Q5SHT6,Q8L8B8,P48636. Сначала они были выравнены путём ручного добавления необходимых гэпов, а после былло сделано выравнивание с использование MUSCLE.

выравнивания не совпадают с 1-5 и 25-30 колонку.

Выравнивания демонстрируют высокое сходство в консервативных доменах (65-75% идентичных колонок). Систематические сдвиги свидетельствуют о разных алгоритмических подходах к размещению гэпов в областях с низкой консервативностью.

T-COFFEE (Tree-based Consistency Objective Function For Alignment Evaluation)

T-COFFEE - это программа для множественного выравнивания последовательностей, разработанная Cedric Notredame и Desmond G. Higgins в 2000 году. Её ключевой особенностью является использование комбинированного подхода, который интегрирует информацию как из глобальных, так и из локальных выравниваний. Основной алгоритм работает в три этапа. Сначала программа создает библиотеку парных выравниваний, используя различные методы . Затем на основе этой библиотеки строится дерево руководства, которое определяет порядок добавления последовательностей в выравнивание. На заключительном этапе выполняется прогрессивное выравнивание с использованием специальной функции консистенции, которая оценивает качество выравнивания. Ключевые преимущества T-COFFEE включают возможность использования дополнительной информации, такой как структурные данные, доменные границы или экспериментальные результаты. Программа также поддерживает специальные режимы для работы с РНК (R-Coffee) и трехмерными структурами (3D-Coffee). Точность T-COFFEE обычно превосходит традиционные методы, особенно при работе с последовательностями с низкой идентичностью, благодаря использованию расширенной библиотеки выравниваний и функции консистенции.Программа особенно полезна при работе со сложными наборами данных, где стандартные методы могут давать неоптимальные результаты. Источник: Notredame, C., Higgins, D. G., & Heringa, J. (2000). T-Coffee: A novel method for fast and accurate multiple sequence alignment. Journal of Molecular Biology, 302(1), 205-217.