Для поиска гомологов белка CLPX_ECOLI, представляющего собой ATP-связывающую субъединицу ATP-зависимой Clp протеазы Escherichia coli, было отобрано семь бактерий из отдела Pseudomonadota. Филогенетические взаимоотношения выбранных организмов представлены на рис. 1.
С помощью программы blastp по базе данных, составленной из протеомов данных бактерий, был проведен поиск гомологичных последовательностей ATP-зависимой Clp протеазы E. coli. Файл выдачи blastp. Все находки с уровнем статистической значимости E-value менее 0.0001 были признаны достоверными гомологами.
На основе отобранных последовательностей было реконструировано филогенетическое дерево. Найденные blastp последовательности были выделены в один fasta-файл, затем было проведено множественное выравнивание с помощью MUSCLE с параметрами по умолчанию. Затем fasta формат файла был переконвертирован в phylip-relaxed и был подан на вход программе FastME с эволюционной моделью оценки расстояний LG с 100 репликами бутстрэп-поддержкси. Полученное дерево было укоренено в среднюю точку. Полученное дерево изображено на рис. 2.
Все последовательности были объединены в один файл, переименованы и выровнены с помощью программа MSA muscle (параметры по умолчанию). Выравнивание сконвертировано в формат phylip-relaxed.
Скобочная формула дерева в формате Newick.
Анализ реконструированного дерева показывает, что топология желтой и красной ветвей согласуется с эталонной филогенией бактерий и корректно отражает таксономию организмов. В то же время для синей ветви наблюдается расхождение с референсным деревом: положение NEIMA реконструировано как базальное, тогда как согласно эталонной филогении на этом месте должен находиться BRUSU.
Пары ортологичных белков: CLPX NEIMA:CLPX PASMU, HSLU BRUSU:HSLU BURMA, HSLU PASMU:HSLU HAEIN. Пары паралогичных белков: HSLU PASMU:CLPX PASMU, HSLU HAEIN:CLPX HAEIN, HSLU SACD2:CLPX SACD2.
На рис. 3 изображено дерево с свернутыми (collapsed) ортологичными группами.