Были выбраны программы MAFFT, MUSCLE, TCOFFEE. Последовательности были взяты из 11 практикума - последовательности входящие в SEED. Анализ проводился вручную, с помощью сервиса VerAlign. Получены отдельные блоки идиентичности пар множественных выравниваний, и блоки, где они различаются.
MAFFT/TCOFFEE | Идиентичны | Различаются | ||||
---|---|---|---|---|---|---|
Координаты в первом выравнивании | 50-79 | 81-98 | 504-505 | 11-18 | 29-31 | 260-262 |
Во втором | 37-66 | 68-85 | 479-780 | 1-8 | 12-14 | 258-260 |
Размер блока | 30 | 18 | 2 | 8 | 3 | 3 |
MAFFT/MUSCLE | Идиентичны | Различаются | ||||
---|---|---|---|---|---|---|
Координаты в первом выравнивании | 52-79 | 370-424 | 105-113 | 11-14 | 29-31 | 506-510 |
Во втором | 39-66 | 332-386 | 92-100 | 1-4 | 12-4 | 463-467 |
Размер блока | 28 | 55 | 9 | 4 | 3 | 5 |
Выбранные для анализа последовательности у всех трех программ выравнивались практически идиентично, поэтому в этих выравнивания много одинаковых блоков, причем довольно больших. В неочевидных местах где ставится вопрос о инделях программы уже ведут себя часто по-разному, и там возникают блоки, выравненные неодинаково. С помощью VerAlign идно, что в среднем выравнивание сделанное MUSCLE более похоже на MAFFT, нежели TCOFFEE на MAFFT. полне возможно такое отличие связано с тем, что программы основанны на разных алгоритмах (TCOFFEE - прогрессивный, тогда как два других - итеративные).
Исходя из презентации MAFFT, обычно дает более качественное выравнивание (имет больший вес сравнения с референсными выравниваниями в BALIBASE), тогда можно предположить, из большего сходства, что MUSCLE в какой-то мере совершенне чем TCOFFEE.
Были выбраны 3 труктуры белков из семейства доменов PF00225. С помощью сервиса на сайте PDB были получены два парных выравнивания и с помощью небольшого скрипта на python - множественное выравнивание трех последовательсностей. Так же по ним было построено выравнивание программов MAFFT.
Выравнивания по структуре и с помощью MAFFT
MAFFT/PDB | Идиентичны | Различаются | ||||
---|---|---|---|---|---|---|
Координаты в первом выравнивании | 6-30 | 51-72 | 287-358 | 33-34 | 36-39 | 239-240 |
Во втором | 6-30 | 51-72 | 280-351 | 36-37 | 38-41 | 234-235 |
Размер блока | 25 | 22 | 72 | 2 | 4 | 2 |
MUSCLE (MUltiple Sequence Comparison by Log-Expectation) Первичное приближенное выравнивание из сходств и различий между последовательностями. Разбиение последовательностей на K-меры, построение дерева по матрице расстояний между ними =>построение прогрессивного выравнивания. По методу Кимуры вычисляется расстояние между последовательностями и строится дерево, по нему - выравнивание. Для выравнивая используется второе дерево по участкам, где в структур деревьев обнаружено отличие, разбиение дерева на два, сравнение получаемых выравниваний и отбор выравнивания с большим весом до получения установвленного веса.