Сравнение выравнивания одних и тех же последовательностей разными программами

Для выравнивания были взяты с последовательности с АС: Q4JR05, P24994, GB_HCMVA, GB_EBVA8, GB_MUHVS.

Сравниваемые программы: T-coffee, Mafft, Muscle.

Файл с выравниваниями Jalview

Block T-coffee+Mafft T-coffee+Muscle
Одинаково выровненные блоки (-1-3)-(-1-3);
(148-152)-(148-152);
(155-173)-(155-173);
(176-203)-(176-203);
(222-234)-(226-238);
(236-265)-(240-269);
(267-297)-(271-301);
(299-340)-(303-344);
(351-372)-(355-376);
(375-377)-(379-381);
(388-400)-(392-404);
(403-441)-(407-445);
(459-464)-(463-468);
(489-513)-(497-521);
(576-659)-(585-668);
(661-669)-(670-678);
(678-798)-(688-808);
(804-810)-(814-820);
(812-881)-(822-891);
(891-897)-(901-907);
(959-976)-(987-1004);
(981-985)-(1009-1013);
(987-987)-(1015-1015);
(1033-1034)-(1047-1048)
(-1-3)-(-1-3)
(148-152)-(124-132)
(155-173)-(135-153)
(176-234)-(156-214)
(236-265)-(216-245)
(267-297)-(247-277)
(299-340)-(279-320)
(346-348)-(326-328)
(352-372)-(332-352)
(375-377)-(355-357)
(388-400)-(368-380)
(403-444)-(383-424)
(446-449)-(426-429)
(458-466)-(438-446)
(489-513)-(473-487)
(516-525)-(500-509)
(576-659)-(556-639)
(661-669)-(641-649)
(678-798)-(659-779)
(804-810)-(785-791)
(812-881)-(793-862)
(891-1043)-(872-1007)
(891-1043)-(872-1007)
(884-888)-(865-869)
Одинаково выровненные колонки вне блока (10-12)-(10-12)
(48-49)-(61-62)
(85-86)-(67-68)
(343-343)-(347-347)
(385-385)-(389-389)
(445-445)-(449-449)
(540-540)-(550-550)
(800-802)-(810-812)
(884-888)-(894-898)
(30-30)-(22-22)
(134-139)-(114-119)
(343-343)-(323-323)
(350-350)-(330-330)
(385-385)-(365-365)
(452-455)-(432-435)
(530-530)-(514-514)
(560-565)-(644-649)
(800-802)-(781-783)
(884-888)-(865-869)

Процент совпадения блоков при сравнении у T-coffee+Muscle (63.57% и 65.84% соответственно) больше, чем у T-coffee+Mafft (60.59% и 59.68 сщщтветственно). Таким образом, работа программы Muscle более приближена к программе T-coffee, чем Mafft. Для более точного результата, возможно, стоит взять выборку побольше.

Построение выравнивания по совмещению структур и сравнение его с выравниванием MSA

Был выбран домен PF00036, а именно белки 1B1G, 1B4C, 1MHO.

viravn

Файл с выравниваниями Jalview

За референсный белок брался 1B1G. Как видно и по выравниванию, и по наложению структур, неплохо совпали альфа-спирали. В целом выравнивание приемлемое, но как будто немного хуже, чем при помощи MSA (muscle). Причем в общем для белков домене выравнивания совпадают.

Описание программы MSA

MUltiple Sequence Comparison by Log-Expectation (MUSCLE) - одна из программ MSA для множественного выравнивания белков, нуклеотидов. Алгоритм MUSCLE состоит из трёх этапов: предварительный прогрессивный, улучшенный прогрессивный и этап доработки.

На первом этапе программа быстро выравнивает последовательности, не делая особого упора на точность. Строится бинарное дерево и на его основе делается прогрессивное выравнивание. Попарно выравниваются дочернии ветки до того момента, пока не будут выравнены все заданные последовательности.

На втором этапе уже уделяется внимание получению оптимального выравнивания. Как и на первом этапе строится дерево и делается прогрессивное выравнивание, но оно оптимизируется путём вычисления только тех выравниваний в поддеревьях, порядок ветвления которых изменился по сравнению с первым бинарным деревом, что приводит к более точному выравниванию.

На последнем этапе из второго дерева выбирается ребро, при этом рёбра посещаются в порядке уменьшения расстояния от корня. Выбранное ребро удаляется, разделяя исходное дерево на поддерева, после чего для каждого поддерева происходит выравнивание. Процесс удаления ребра и выравнивания повторяется до достижения сходимости или заданного пользователем предела.

tree

Источник