Практикум 12

Алгоритмы и программы множественного выравнивания

Сравнение выравниваний трех разных программ

Были выбраны программы MAFFT, MUSCLE, TCOFFEE. Последовательности были взяты из 11 практикума - последовательности входящие в SEED. Анализ проводился вручную, с помощью сервиса VerAlign. Получены отдельные блоки идиентичности пар множественных выравниваний, и блоки, где они различаются.

MAFFT/TCOFFEEИдиентичныРазличаются
Координаты в первом выравнивании50-7981-98504-50511-1829-31260-262
Во втором37-6668-85479-7801-812-14258-260
Размер блока30182833

MAFFT/MUSCLEИдиентичныРазличаются
Координаты в первом выравнивании52-79370-424105-11311-1429-31506-510
Во втором39-66332-38692-1001-412-4463-467
Размер блока28559435

Выбранные для анализа последовательности у всех трех программ выравнивались практически идиентично, поэтому в этих выравнивания много одинаковых блоков, причем довольно больших. В неочевидных местах где ставится вопрос о инделях программы уже ведут себя часто по-разному, и там возникают блоки, выравненные неодинаково. С помощью VerAlign идно, что в среднем выравнивание сделанное MUSCLE более похоже на MAFFT, нежели TCOFFEE на MAFFT. полне возможно такое отличие связано с тем, что программы основанны на разных алгоритмах (TCOFFEE - прогрессивный, тогда как два других - итеративные).
Исходя из презентации MAFFT, обычно дает более качественное выравнивание (имет больший вес сравнения с референсными выравниваниями в BALIBASE), тогда можно предположить, из большего сходства, что MUSCLE в какой-то мере совершенне чем TCOFFEE.

Выравнивания

Выравнивание по совмещению структур

Были выбраны 3 труктуры белков из семейства доменов PF00225. С помощью сервиса на сайте PDB были получены два парных выравнивания и с помощью небольшого скрипта на python - множественное выравнивание трех последовательсностей. Так же по ним было построено выравнивание программов MAFFT.

Выравнивания по структуре и с помощью MAFFT


Далее они были загружны в VerAlign и вручную сравнены. Выравнивания были на удивление похожи и практически полностью идиентичны, встречались ли небольшие отдельные неодинаково выравненные блоки.

MAFFT/PDBИдиентичныРазличаются
Координаты в первом выравнивании6-3051-72287-35833-3436-39239-240
Во втором6-3051-72280-35136-3738-41234-235
Размер блока252272242

MUSCLE

MUSCLE (MUltiple Sequence Comparison by Log-Expectation) Первичное приближенное выравнивание из сходств и различий между последовательностями. Разбиение последовательностей на K-меры, построение дерева по матрице расстояний между ними =>построение прогрессивного выравнивания. По методу Кимуры вычисляется расстояние между последовательностями и строится дерево, по нему - выравнивание. Для выравнивая используется второе дерево по участкам, где в структур деревьев обнаружено отличие, разбиение дерева на два, сравнение получаемых выравниваний и отбор выравнивания с большим весом до получения установвленного веса.