Для выравнивания были взяты с последовательности с АС: Q4JR05, P24994, GB_HCMVA, GB_EBVA8, GB_MUHVS.
Сравниваемые программы: T-coffee, Mafft, Muscle.
Block | T-coffee+Mafft | T-coffee+Muscle |
---|---|---|
Одинаково выровненные блоки | (-1-3)-(-1-3); (148-152)-(148-152); (155-173)-(155-173); (176-203)-(176-203); (222-234)-(226-238); (236-265)-(240-269); (267-297)-(271-301); (299-340)-(303-344); (351-372)-(355-376); (375-377)-(379-381); (388-400)-(392-404); (403-441)-(407-445); (459-464)-(463-468); (489-513)-(497-521); (576-659)-(585-668); (661-669)-(670-678); (678-798)-(688-808); (804-810)-(814-820); (812-881)-(822-891); (891-897)-(901-907); (959-976)-(987-1004); (981-985)-(1009-1013); (987-987)-(1015-1015); (1033-1034)-(1047-1048) |
(-1-3)-(-1-3) (148-152)-(124-132) (155-173)-(135-153) (176-234)-(156-214) (236-265)-(216-245) (267-297)-(247-277) (299-340)-(279-320) (346-348)-(326-328) (352-372)-(332-352) (375-377)-(355-357) (388-400)-(368-380) (403-444)-(383-424) (446-449)-(426-429) (458-466)-(438-446) (489-513)-(473-487) (516-525)-(500-509) (576-659)-(556-639) (661-669)-(641-649) (678-798)-(659-779) (804-810)-(785-791) (812-881)-(793-862) (891-1043)-(872-1007) (891-1043)-(872-1007) (884-888)-(865-869) |
Одинаково выровненные колонки вне блока | (10-12)-(10-12) (48-49)-(61-62) (85-86)-(67-68) (343-343)-(347-347) (385-385)-(389-389) (445-445)-(449-449) (540-540)-(550-550) (800-802)-(810-812) (884-888)-(894-898) |
(30-30)-(22-22) (134-139)-(114-119) (343-343)-(323-323) (350-350)-(330-330) (385-385)-(365-365) (452-455)-(432-435) (530-530)-(514-514) (560-565)-(644-649) (800-802)-(781-783) (884-888)-(865-869) |
Процент совпадения блоков при сравнении у T-coffee+Muscle (63.57% и 65.84% соответственно) больше, чем у T-coffee+Mafft (60.59% и 59.68 сщщтветственно). Таким образом, работа программы Muscle более приближена к программе T-coffee, чем Mafft. Для более точного результата, возможно, стоит взять выборку побольше.
Был выбран домен PF00036, а именно белки 1B1G, 1B4C, 1MHO.
За референсный белок брался 1B1G. Как видно и по выравниванию, и по наложению структур, неплохо совпали альфа-спирали. В целом выравнивание приемлемое, но как будто немного хуже, чем при помощи MSA (muscle). Причем в общем для белков домене выравнивания совпадают.
MUltiple Sequence Comparison by Log-Expectation (MUSCLE) - одна из программ MSA для множественного выравнивания белков, нуклеотидов. Алгоритм MUSCLE состоит из трёх этапов: предварительный прогрессивный, улучшенный прогрессивный и этап доработки.
На первом этапе программа быстро выравнивает последовательности, не делая особого упора на точность. Строится бинарное дерево и на его основе делается прогрессивное выравнивание. Попарно выравниваются дочернии ветки до того момента, пока не будут выравнены все заданные последовательности.
На втором этапе уже уделяется внимание получению оптимального выравнивания. Как и на первом этапе строится дерево и делается прогрессивное выравнивание, но оно оптимизируется путём вычисления только тех выравниваний в поддеревьях, порядок ветвления которых изменился по сравнению с первым бинарным деревом, что приводит к более точному выравниванию.
На последнем этапе из второго дерева выбирается ребро, при этом рёбра посещаются в порядке уменьшения расстояния от корня. Выбранное ребро удаляется, разделяя исходное дерево на поддерева, после чего для каждого поддерева происходит выравнивание. Процесс удаления ребра и выравнивания повторяется до достижения сходимости или заданного пользователем предела.