12 практикум

Рогачевская Е.Н.
Факультет биоинженерии и биоинформатики,
Московский государственный университет имени М. В. Ломоносова

1Сравнение выравниваний одних и тех же последовательностей разными программами

Для построения выравниваний были использованы последовательности из семейства белковых доменов PF00167 (Fibroblast growth factor).

Гиперссылки на сравниваемые выравнивания в формате fasta:

Для того, чтобы сравнить выравнивания, я использовала код, написанный моими однокурсниками.

MUSCLE & MAFFT

Muscle Mafft Длина
(1, 9)(1, 9)2
(11,12)(11,12)4
(20,24)(20,24)5
(28,37)(28,37)10
(43,81)(44,82)39
(95,101)(94,100)7
(106,112)(105,111)7
(125,129)(124,128)5
(131,134)(130,133)4
(140,171)(139,170)32
Одинаково выровненные колонки, не входящие в блоки:
(40,41)
(120,119)
Длина первого выравнивания: 171
Длина второго выравнивания: 170
Количество одинаково выровненных колонок: 126
Процент одинаково выровненных колонок от длины первого выравнивания: 73.68%
Процент одинаково выровненных колонок от длины второго выравнивания: 74.12%

MUSCLE & TCOFFEE

Muscle Tcoffee Длина
(1,9)(1,9)9
(11,12)(11,12)2
(14,17)(14,17)4
(20,24)(20,24)5
(27,28)(27,28)2
(31,35)(31,35)5
(43,53)(44,54)11
(59,82)(61,84)24
(95,101)(98,104)7
(107,115)(110,118)9
(126,127)(129,130)2
(131,135)(134,138)5
(140,154)(143,157)15
(159,162)(164,167)4
Одинаково выровненные колонки, не входящие в блоки:
(40,41)
(57,59)
(129,132)
Длина первого выравнивания: 171
Длина второго выравнивания: 179
Количество одинаково выровненных колонок: 107
Процент одинаково выровненных колонок от длины первого выравнивания: 62.57%
Процент одинаково выровненных колонок от длины второго выравнивания: 59.78%

Выравнивание MAFFT оказалось ближе к выравниванию MUSCLE: у этой пары нашлось больше совпадающих колонок, чем у пары MUSCLE–TCoffee, и доля одинаково выровненных позиций относительно длины выравнивания тоже выше. В паре MUSCLE–TCoffee количество совпадающих блоков больше (14 против 10 у MUSCLE–MAFFT), однако часть этих блоков короче, чем в случае MUSCLE–MAFFT, а само выравнивание TCoffee получилось самым длинным за счёт большего числа гэпов.

2Сравнение выравнивания по совмещению структур с выравниванием MSA

Для построения выравниваний были использованы последовательности из семейства белковых доменов PF00167 (Fibroblast growth factor): 1axm, 1bar, 1bfb. Выравнивание по совмещению структур было получено программой PDBeFold.

Ссылки на выравнивания в формате fasta:

Совмещение трёх белков

При структурном выравнивании трёх белков их центральные участки накладываются очень хорошо, а основные элементы вторичной структуры (α‑спирали и β‑листы) занимают сопоставимые позиции во всех трёх цепях. Петли и концевые участки демонстрируют больший разброс по положению в пространстве, что соответствует пониженной консервации в этих регионах в выравнивании.

В JalView аннотация secondary structure показывает, что спирали попадают в протяжённые хорошо выровненные блоки с высокой conservation и quality, тогда как в участках без регулярной вторичной структуры наблюдается больше гэпов и вариабельности. Это говорит о том, что структурное выравнивание корректно фиксирует консервативное структурное ядро домена, а различия между белками в основном приходятся на гибкие петли и вставки.

PDBeFold Muscle Длина
(1,95)(1,95)95
(99,130)(99,130)32
Одинаково выровненные колонки, не входящие в блоки: (97,97)
Количество одинаково выровненных колонок: 128
Процент одинаково выровненных колонок от длины первого выравнивания: 98.46%
Процент одинаково выровненных колонок от длины второго выравнивания: 98.46%

При сравнении выравнивания, полученного из совмещения структур, с выравниванием MUSCLE видно, что в области структурного ядра домена оба метода дают практически одинаковый результат: основные элементы вторичной структуры (α‑спирали и β‑листы), которые хорошо накладываются в 3D, попадают в одни и те же протяжённые блоки с высокой conservation и quality. Степень согласованности двух выравниваний количественно тоже очень высокая: около 98 % колонок совпадают полностью, а различия в расположении гэпов наблюдаются лишь в одном локальном участке, вероятно соответствующем гибкой петле или вставке. Таким образом, MUSCLE практически полностью воспроизводит структурное выравнивание для выбранных белков и заметно расходится с ним только там, где сама структура наиболее вариабельна, тогда как в консервативном структурном ядре соответствие между методами практически полное.

4Краткое описание MUSCLE

MUSCLE (MUltiple Sequence Comparison by Log‑Expectation) — программа для множественного выравнивания белков и нуклеиновых кислот, предложенная R. Edgar в 2004 году. Она сочетает прогрессивное выравнивание с быстрыми эвристиками и итеративным улучшением, что обеспечивает одновременно высокую точность и эффективность при работе с большими наборами последовательностей. [1]

Алгоритм MUSCLE включает три основные стадии. Сначала быстро оцениваются расстояния между последовательностями (на основе k‑меров) и строится первоначальное дерево, по которому выполняется черновое прогрессивное выравнивание. Затем по уже выровненным последовательностям пересчитываются расстояния, строится улучшенное дерево и проводится второе, более точное прогрессивное выравнивание. На заключительном этапе выполняется итеративный refinement: дерево разрезают по рёбрам, заново выравнивают две группы последовательностей и принимают новый вариант, если он улучшает целевую функцию (log‑expectation score, LE‑score). [1]

Ключевые преимущества MUSCLE: (1) высокая точность на стандартных тестовых наборах (BAliBASE, SABmark, SMART, PREFAB) — качество выравнивания сопоставимо или лучше, чем у ClustalW и T‑Coffee; (2) высокая скорость и умеренное потребление памяти, особенно в режиме fast, который даёт точность, близкую к ClustalW, но на 2–3 порядка быстрее на больших наборах последовательностей. Основные ограничения — снижение точности на очень сильно дивергентных последовательностях и отсутствие явного учёта структурной информации (3D‑структуры, экспериментальной вторичной структуры), поскольку алгоритм использует только данные о последовательности и статистические оценки профилей. [1]

[1] MUSCLE: a multiple sequence alignment method with reduced time and space complexity
Robert C Edgar
doi:10.1186/1471-2105-5-113