Для поиска гомологов белка CLPX_ECOLI (ATP-связывающая субъединица ATP-зависимой Clp протеазы E.coli) было выбрано 7 бактерий из отдела Pseudomonadota. Их филогения представлена на рис.1
С помощью программы blastp по библиотеке, составленной из протеомов выбранных бактерий, был проведен поиск гомологов белка CLPX_ECOLI (оставлены находки с E-value < 0.0001). Результаты приведены здесь. Будем считать найденные белки гомологами.
По последовательностям находок было построено дерево. Для этого использовался сайт NGPylogeny. Для проведения выравнивания использовалась программа MAFFT (тип данных - аминокислоты, матрица - BLOSUM62). Для построения дерева была выбрана программа FastME (эволюционная модель - LG, применено удаление всех колонок с гэпами, улучшение дерева - BalME NNI + SPR, 100 повторений для бутстрепа). Выдача в формате Newick представлена здесь.
Если считать построенное дерево правильным, то можно привести следующиее примеры пар ортологов: CLPX AROAE-CLPX BURMA; HSLU BARHE-HSLU BRUSU; CLPX ACICJ-CLPX AGRFC.
Если считать все найденные белки гомологами, то парой паралогов будет любая пара белков из одного организма, например: HSLU BARHE-CLPX BARHE; A5FVF9 ACICJ-HSLU ACICJ; A5FYD7 ACICJ-CLPX ACICJ.
Сравним построенное дерево с данными филогении. Филогения, реконструированная по красной и зеленой группам, похожа на реальную филогению, однако BURMA объединяется в одну кладу с AROAE, а не с BPRPE, как должно быть по данным систематики. Это может быть связано либо с построенным выравниванием, либо с эволюционной судьбой этих белков. Например, возможно, что у общего предка этих трех организмов соответствующие гены паралогизировались и у разных организмов сохранились разные паралоги (не думаю, что вероятность этого высока, т.к. в таком случае паралогизоваться должны были и Clpx, и Hslu).
Синяя группа уже совсем не отражает реальную филогению (AGRFC оказалась внешней к BRUSU и BARHE). Это может быть связано с неточным выравниванием или недостатком данных для построения дерева (например, могло повлиять удаление всех колонок с гэпами). Однако интересно, что ветвь, поддерживающая BURMA и ACICJ, меет наибольшую метрику бутстрепа для этой группы. В тоже время, BURMA удалён от остальных организмов этой группы по настоящей филогении (BURMA принадлежит к Betaproteobacteria, а остальные - к Alphaproteobacteria). Было предположено, что эта группа белков - ATP-зависимых цинковых металлопротеаз FtsH - либо возникла у общего предка Alphaproteobacteria, либо пропала у общего предка Betaproteobacteria, а у BURMA соответствующий ген оказался в результате горизонтального переноса. Но чтобы уверенно заявить это не хватает данных (не были рассмотрены Gammaproteobacteria и также не исключена ошибка бласта или выравнивания). Собственно, если это действительно так, то A0A0H2WJ72_BURMA не является ортологом для других белков синей группы. Но я посчитал эти данные недостаточными и потому все же на рис. 2 и 3 этот белок объединеном с другими белками синей группы как ортологи.