Скачала все последовательности, создаю общий файл с ними:
cat mnemo.fasta > ./proteomes.fasta
Создаю белковую базу данных:
makeblastdb -dbtype prot -in proteomes.fasta -out clpx_db
Ищу гомологов по последовательности из ecoli_clpx.fa в созданной базе данных с e-value 0.001, результат вывожу в таблицу clpx.txt
blastp -query ecoli_clpx.fa -db clpx.pdb-lock -evalue 0.001 -out clpx.txt
Вывод таблицы
Ссылка на полный файлsp|P0A6H1|CLPX_ECOLI ATP-dependent Clp protease ATP-binding sub... 860 0.0
sp|Q3SI99|CLPX_THIDA ATP-dependent Clp protease ATP-binding sub... 642 0.0
sp|Q92QQ2|CLPX_RHIME ATP-dependent Clp protease ATP-binding sub... 596 0.0
sp|A5FX05|CLPX_ACICJ ATP-dependent Clp protease ATP-binding sub... 583 0.0
sp|Q165G0|CLPX_ROSDO ATP-dependent Clp protease ATP-binding sub... 582 0.0
sp|A1B1H7|CLPX_PARDP ATP-dependent Clp protease ATP-binding sub... 580 0.0
sp|A1B5T0|HSLU_PARDP ATP-dependent protease ATPase subunit HslU... 103 3e-24
sp|P0A6H5|HSLU_ECOLI ATP-dependent protease ATPase subunit HslU... 93.6 6e-21
sp|Q16CY2|HSLU_ROSDO ATP-dependent protease ATPase subunit HslU... 93.6 8e-21
sp|Q92TA7|HSLU_RHIME ATP-dependent protease ATPase subunit HslU... 92.8 1e-20
tr|A5FYD7|A5FYD7_ACICJ ATP-dependent protease ATPase subunit Hs... 92.0 2e-20
tr|Q3SFW1|Q3SFW1_THIDA ATP-dependent protease ATPase subunit Hs... 86.7 1e-18
tr|A1B8N4|A1B8N4_PARDP ATP-dependent Clp protease, ATP-binding ... 50.1 1e-06
sp|P0AAI3|FTSH_ECOLI ATP-dependent zinc metalloprotease FtsH OS... 46.2 2e-05
sp|Q168A2|RUVB_ROSDO Holliday junction branch migration complex... 45.4 3e-05
tr|Q92M98|Q92M98_RHIME ATP-dependent zinc metalloprotease FtsH ... 45.4 3e-05
tr|A5FVF9|A5FVF9_ACICJ ATP-dependent zinc metalloprotease FtsH ... 44.7 6e-05
tr|A1AZV8|A1AZV8_PARDP ATP-dependent zinc metalloprotease FtsH ... 44.3 7e-05
tr|Q3SJR4|Q3SJR4_THIDA ATP-dependent zinc metalloprotease FtsH ... 43.5 1e-04
sp|A1AZW1|RUVB_PARDP Holliday junction branch migration complex... 43.1 1e-04
sp|P0ABH9|CLPA_ECOLI ATP-dependent Clp protease ATP-binding sub... 43.1 2e-04
tr|Q3SJH1|Q3SJH1_THIDA ATP-dependent Clp protease, ATP-binding ... 42.7 3e-04
tr|A1BBJ2|A1BBJ2_PARDP ATP-dependent zinc metalloprotease FtsH ... 41.6 5e-04
tr|A1AY35|A1AY35_PARDP Chaperone protein ClpB OS=Paracoccus den... 41.6 6e-04
tr|Q16C81|Q16C81_ROSDO Chaperone protein ClpB OS=Roseobacter de... 41.2 7e-04
tr|Q167Z2|Q167Z2_ROSDO ATP-dependent zinc metalloprotease FtsH ... 41.2 7e-04
Реконструкция и визуализация
От названий последовательностей оставляю только мнемоники, загружаю в NGPhylogeny со следующими параметрами: выравнивание MAFFT, алгоритм построения: FastME, количество реплик bootstrap 100
Укорененное дерево:
Укорененное со значениями bootstrap (кружками):
Примеры ортологов: CLPA ECOLI и Q3SJH1 THIDA, A1AZV8 PARDP и Q167Z2 ROSDO, A1AY35 PARDP и Q16C81 ROSDO.
Примеры паралогов: RUVB ROSDO и Q167Z2 ROSDO, A1AY35 PARDP и A1B8N4 PARDP, A1BBJ2 PARDP и A1AZV8 PARDP.
Ортологические группы
Разными цветами обозначила ортологичные группы
"Схлопнула" ортологичные группы
Получилось четыре ортологичные группы:
FTSH- АТФ-зависимая цинковая металлопротеаза, в кладу вошли все организмы.
CLPA- АТФ-зависимый компонент ClpA протеазы, в кладу вошли только три организма, не попали ACICJ, ROSDO и RHIME.
CLPX- АТФ-зависимый компонент АТФ-связывающей Clp протеазы, в кладу вошли все организмы.
HSLU- АТФ-зависимый компонент АТФ-связывающей HslU протеазы, в кладу вошли все организмы.
Топология дерева со "схлопнутыми" кладами не отличается от исходной.