Практикум 12

1Сравнение выравниваний одних и тех же последовательностей разными программами

Для построения выравниваний были использованы последовательности из семейства белковых доменов PF00167 (Fibroblast growth factor).

Гиперссылки на сравниваемые выравнивания в формате fasta:

MUSCLE

MAFFT

TCOFFEE

Проект с тремя выравниваниями

Для того, чтобы сравнить выравнивания, я использовала код, написанный моими однокурсниками.

MUSCLE & MAFFT

Muscle	Mafft	Длина
(1, 9)	(1, 9)	2
(11,12)	(11,12)	4
(20,24)	(20,24)	5
(28,37)	(28,37)	10
(43,81)	(44,82)	39
(95,101)	(94,100)	7
(106,112)	(105,111)	7
(125,129)	(124,128)	5
(131,134)	(130,133)	4
(140,171)	(139,170)	32

Одинаково выровненные колонки, не входящие в блоки:
(40,41)
(120,119)

Длина первого выравнивания: 171
Длина второго выравнивания: 170
Количество одинаково выровненных колонок: 126
Процент одинаково выровненных колонок от длины первого выравнивания: 73.68%
Процент одинаково выровненных колонок от длины второго выравнивания: 74.12%

MUSCLE & TCOFFEE

Muscle	Tcoffee	Длина
(1,9)	(1,9)	9
(11,12)	(11,12)	2
(14,17)	(14,17)	4
(20,24)	(20,24)	5
(27,28)	(27,28)	2
(31,35)	(31,35)	5
(43,53)	(44,54)	11
(59,82)	(61,84)	24
(95,101)	(98,104)	7
(107,115)	(110,118)	9
(126,127)	(129,130)	2
(131,135)	(134,138)	5
(140,154)	(143,157)	15
(159,162)	(164,167)	4

Одинаково выровненные колонки, не входящие в блоки:
(40,41)
(57,59)
(129,132)

Длина первого выравнивания: 171
Длина второго выравнивания: 179
Количество одинаково выровненных колонок: 107
Процент одинаково выровненных колонок от длины первого выравнивания: 62.57%
Процент одинаково выровненных колонок от длины второго выравнивания: 59.78%

Выравнивание MAFFT оказалось ближе к выравниванию MUSCLE: у этой пары нашлось больше совпадающих колонок, чем у пары MUSCLE–TCoffee, и доля одинаково выровненных позиций относительно длины выравнивания тоже выше. В паре MUSCLE–TCoffee количество совпадающих блоков больше (14 против 10 у MUSCLE–MAFFT), однако часть этих блоков короче, чем в случае MUSCLE–MAFFT, а само выравнивание TCoffee получилось самым длинным за счёт большего числа гэпов.

2Сравнение выравнивания по совмещению структур с выравниванием MSA

Для построения выравниваний были использованы последовательности из семейства белковых доменов PF00167 (Fibroblast growth factor): 1axm, 1bar, 1bfb. Выравнивание по совмещению структур было получено программой PDBeFold.

Ссылки на выравнивания в формате fasta:

PDBeFold

MUSCLE

Проект с выравниваниями

При структурном выравнивании трёх белков их центральные участки накладываются очень хорошо, а основные элементы вторичной структуры (α‑спирали и β‑листы) занимают сопоставимые позиции во всех трёх цепях. Петли и концевые участки демонстрируют больший разброс по положению в пространстве, что соответствует пониженной консервации в этих регионах в выравнивании.

В JalView аннотация secondary structure показывает, что спирали попадают в протяжённые хорошо выровненные блоки с высокой conservation и quality, тогда как в участках без регулярной вторичной структуры наблюдается больше гэпов и вариабельности. Это говорит о том, что структурное выравнивание корректно фиксирует консервативное структурное ядро домена, а различия между белками в основном приходятся на гибкие петли и вставки.

PDBeFold	Muscle	Длина
(1,95)	(1,95)	95
(99,130)	(99,130)	32

Одинаково выровненные колонки, не входящие в блоки: (97,97)

Количество одинаково выровненных колонок: 128
Процент одинаково выровненных колонок от длины первого выравнивания: 98.46%
Процент одинаково выровненных колонок от длины второго выравнивания: 98.46%

При сравнении выравнивания, полученного из совмещения структур, с выравниванием MUSCLE видно, что в области структурного ядра домена оба метода дают практически одинаковый результат: основные элементы вторичной структуры (α‑спирали и β‑листы), которые хорошо накладываются в 3D, попадают в одни и те же протяжённые блоки с высокой conservation и quality. Степень согласованности двух выравниваний количественно тоже очень высокая: около 98 % колонок совпадают полностью, а различия в расположении гэпов наблюдаются лишь в одном локальном участке, вероятно соответствующем гибкой петле или вставке. Таким образом, MUSCLE практически полностью воспроизводит структурное выравнивание для выбранных белков и заметно расходится с ним только там, где сама структура наиболее вариабельна, тогда как в консервативном структурном ядре соответствие между методами практически полное.

4Краткое описание MUSCLE

MUSCLE (MUltiple Sequence Comparison by Log‑Expectation) — программа для множественного выравнивания белков и нуклеиновых кислот, предложенная R. Edgar в 2004 году. Она сочетает прогрессивное выравнивание с быстрыми эвристиками и итеративным улучшением, что обеспечивает одновременно высокую точность и эффективность при работе с большими наборами последовательностей. [1]

Алгоритм MUSCLE включает три основные стадии. Сначала быстро оцениваются расстояния между последовательностями (на основе k‑меров) и строится первоначальное дерево, по которому выполняется черновое прогрессивное выравнивание. Затем по уже выровненным последовательностям пересчитываются расстояния, строится улучшенное дерево и проводится второе, более точное прогрессивное выравнивание. На заключительном этапе выполняется итеративный refinement: дерево разрезают по рёбрам, заново выравнивают две группы последовательностей и принимают новый вариант, если он улучшает целевую функцию (log‑expectation score, LE‑score). [1]

Ключевые преимущества MUSCLE: (1) высокая точность на стандартных тестовых наборах (BAliBASE, SABmark, SMART, PREFAB) — качество выравнивания сопоставимо или лучше, чем у ClustalW и T‑Coffee; (2) высокая скорость и умеренное потребление памяти, особенно в режиме fast, который даёт точность, близкую к ClustalW, но на 2–3 порядка быстрее на больших наборах последовательностей. Основные ограничения — снижение точности на очень сильно дивергентных последовательностях и отсутствие явного учёта структурной информации (3D‑структуры, экспериментальной вторичной структуры), поскольку алгоритм использует только данные о последовательности и статистические оценки профилей. [1]

[1] MUSCLE: a multiple sequence alignment method with reduced time and space complexity
Robert C Edgar
doi:10.1186/1471-2105-5-113