Все находки объединил в файл best_hits_seqs, оставив в заголовках только идентификаторы.
На сайте NGPhylogeny проводилась филогенетическая реконструкция, использовав MAFFT и FastME c параметрами: "Gamma distributed rates across sites" — No, "Starting tree" — BIONJ, "No refinement", 100 бутстреп реплик.
Основываясь на предположении, что филогенетическая реконструкция верна, можно найти пары ортологов и паралогов. Они представлены в Таблице 1
Таблица 1. Три пары ортологов и три пары паралогов в полученном дереве.
Ортологи
Паралоги
CLPX COREF и CLPX CORDI
CLPX COREF и Q8FMH5 COREF
Q8FMH5 COREF и Q6NFB1 CORDI
Q8FMH5 COREF и Q8FMG2 COREF
Q8FMG2 COREF и Q6NF92 CORDI
Q8FMG2 COREF и CLPX COREF
Далее я укоренил дерево в среднюю точку и покрасил ортологичные группы белков (Рис. 1). Группы, состоящие из трёх и меньше ортологов, покрашены в чёрный цвет. Также было добавлено отображение поддержек bootstrap.
Рис 1. Дерево, построенное в результате выравнивания гомологов CLPX_ECOLI. Ортологичные группы выделены разными цветами. Группы с тремя или меньше ортологов выделены чёрным. Цифрами под ветвями обозначено количество bootstrap реплик.
Рис 2. Дерево из Рис. 1, на котором ортологичные группы схлопнуты с сохранением соответствующих цветов. В красной группе присутствуют все из семи отобранных видов бактерий. При этом она не соответствует филогении бактерий. Все гены этой группы являются ATP-зависимыми протеазами Clp. Зелёная группа включает в себя бактерий с мнемониками ARTS2, BIFLO, COREF и CORDI и содержит белки, являющиеся АТФазой класса I ClpC (Q8G871), АТФазой класса II ClpN (Q8FMH5). Группа не соответствует филогении бактерий. В синей группе присутствуют все из семи отобранных видов бактерий. Это группа соответствует филогении бактерий и включает в себя белки ATP-азы из семейства AAA-3.