Для поиска гомологов белка CLPX_ECOLI (ATP-связывающая субъединица ATP-зависимой Clp протеазы E.coli) были выбраны 7 бактерий из отдела Pseudomonadota, со следующими мнемониками:
Далее необходимо было подготовить эти протеомы для запуска программы blastp, для этого сперва протеомы выбранных бактерий были объединены в один файл следующей командой:
cat /P/y22/term4/Proteomes/ACICJ.fasta /P/y22/term4/Proteomes/BRUSU.fasta /P/y22/term4/Proteomes/BURMA.fasta /P/y22/term4/Proteomes/HAEIN.fasta /P/y22/term4/Proteomes/POLAQ.fasta /P/y22/term4/Proteomes/PSEAE.fasta /P/y22/term4/Proteomes/ROSDO.fasta > proteomes.fasta
Затем на основе выбранных протеомов была создана локальная база данных для запуска blastp с помщью команды:
makeblastdb -in proteomes.fasta -dbtype prot -out pseudo_db
После чего был запущен blastp на основе созданной базы данных, в качестве запроса была подана последовательность белка с мнемоникой CLPX_ECOLI, для отбора достоверных гомологичных белков среди отобранных бактерий был поставлен порог на E-value в 0.0001:
blastp -query CLPX_ECOLI.faa -db pseudo_db -outfmt 6 -evalue 0.0001 -out clpx_homo.txt
выдачаПоследовательности находок были собраны в один файл fasta-файл, после чего было проведено выравнивание программой muscle. После перевода в нужный формат .phy при помощи скрипта было построено дерево реконструкции с помощью программы FastME с использованием модели оценки расстояний p-distance, также была использована бутстреп-поддержка (100 реплик)
fastme -i clpx_homologs.phy -o clpx_pdist.tre -p -b 100
Формула дерева в формате Newick
Примеры пар паралогов:
Примеры пар ортологов:

Рис. 1. Реконструированное дерево, построенное программой Fastme с использованием модели оценки расстояний p-distance, бутстреп-поддержка - 100 реплик, по последовательностям найденных гомологов CLPX_ECOLI. Дерево укоренено в среднюю точку, окрашено по ортологическим группам белков: зелёным цветом выделена ортологическая группа ATP-связывающих субъединиц ATP-зависимой Clp протеазы, синим - ATP-азных субъединиц HslU ATP-зависимой протеазы, неокрашенными остались группа АТФ-зависимых цинковых металлопротеаз FtsH и субъединица комплекса миграции ответвлений Холлидей-Джанкшен RuvB.

Рис. 2. Реконструированное дерево гомологов CLPX_ECOLI со схлопнутыми ортологическими группами. В зеленую группу CLPX попали все белки из каждой взятой бактерии, в голубую группу HSLU не попал белок Polynucleobacter asymbioticus.
Сравнение соответствия реконструкции групп ортологов и филогении бактерий:
CLPX: клада ((((((BRUSU, ROSDO), ACICJ), PSEAE), BURMA), HAEIN), POLAQ) не соответствует филогении, должно быть (((BRUSU, ROSDO), ACICJ), ((BURMA, POLAQ),(PSEAE, HAEIN))).
HSLU: клада (((((PSEAE, HAEIN), BRUSU), ACICJ), ROSDO), BURMA) не соответствует филогении, должно быть (((PSEAE, HAEIN)), BURMA), (ACICJ, (ROSDO, BRUSU))).
Данное дерево было использовано как эталонная филогения бактерий.