Поиск ортологов

Скачала все последовательности, создаю общий файл с ними:

cat mnemo.fasta > ./proteomes.fasta

Создаю белковую базу данных:

makeblastdb -dbtype prot -in proteomes.fasta -out clpx_db

Ищу гомологов по последовательности из ecoli_clpx.fa в созданной базе данных с e-value 0.001, результат вывожу в таблицу clpx.txt

blastp -query ecoli_clpx.fa -db clpx.pdb-lock -evalue 0.001 -out clpx.txt

Вывод таблицы

Ссылка на полный файл

sp|P0A6H1|CLPX_ECOLI ATP-dependent Clp protease ATP-binding sub... 860 0.0

sp|Q3SI99|CLPX_THIDA ATP-dependent Clp protease ATP-binding sub... 642 0.0

sp|Q92QQ2|CLPX_RHIME ATP-dependent Clp protease ATP-binding sub... 596 0.0

sp|A5FX05|CLPX_ACICJ ATP-dependent Clp protease ATP-binding sub... 583 0.0

sp|Q165G0|CLPX_ROSDO ATP-dependent Clp protease ATP-binding sub... 582 0.0

sp|A1B1H7|CLPX_PARDP ATP-dependent Clp protease ATP-binding sub... 580 0.0

sp|A1B5T0|HSLU_PARDP ATP-dependent protease ATPase subunit HslU... 103 3e-24

sp|P0A6H5|HSLU_ECOLI ATP-dependent protease ATPase subunit HslU... 93.6 6e-21

sp|Q16CY2|HSLU_ROSDO ATP-dependent protease ATPase subunit HslU... 93.6 8e-21

sp|Q92TA7|HSLU_RHIME ATP-dependent protease ATPase subunit HslU... 92.8 1e-20

tr|A5FYD7|A5FYD7_ACICJ ATP-dependent protease ATPase subunit Hs... 92.0 2e-20

tr|Q3SFW1|Q3SFW1_THIDA ATP-dependent protease ATPase subunit Hs... 86.7 1e-18

tr|A1B8N4|A1B8N4_PARDP ATP-dependent Clp protease, ATP-binding ... 50.1 1e-06

sp|P0AAI3|FTSH_ECOLI ATP-dependent zinc metalloprotease FtsH OS... 46.2 2e-05

sp|Q168A2|RUVB_ROSDO Holliday junction branch migration complex... 45.4 3e-05

tr|Q92M98|Q92M98_RHIME ATP-dependent zinc metalloprotease FtsH ... 45.4 3e-05

tr|A5FVF9|A5FVF9_ACICJ ATP-dependent zinc metalloprotease FtsH ... 44.7 6e-05

tr|A1AZV8|A1AZV8_PARDP ATP-dependent zinc metalloprotease FtsH ... 44.3 7e-05

tr|Q3SJR4|Q3SJR4_THIDA ATP-dependent zinc metalloprotease FtsH ... 43.5 1e-04

sp|A1AZW1|RUVB_PARDP Holliday junction branch migration complex... 43.1 1e-04

sp|P0ABH9|CLPA_ECOLI ATP-dependent Clp protease ATP-binding sub... 43.1 2e-04

tr|Q3SJH1|Q3SJH1_THIDA ATP-dependent Clp protease, ATP-binding ... 42.7 3e-04

tr|A1BBJ2|A1BBJ2_PARDP ATP-dependent zinc metalloprotease FtsH ... 41.6 5e-04

tr|A1AY35|A1AY35_PARDP Chaperone protein ClpB OS=Paracoccus den... 41.6 6e-04

tr|Q16C81|Q16C81_ROSDO Chaperone protein ClpB OS=Roseobacter de... 41.2 7e-04

tr|Q167Z2|Q167Z2_ROSDO ATP-dependent zinc metalloprotease FtsH ... 41.2 7e-04

Реконструкция и визуализация

От названий последовательностей оставляю только мнемоники, загружаю в NGPhylogeny со следующими параметрами: выравнивание MAFFT, алгоритм построения: FastME, количество реплик bootstrap 100

Укорененное дерево:

Укорененное со значениями bootstrap (кружками):

Примеры ортологов: CLPA ECOLI и Q3SJH1 THIDA, A1AZV8 PARDP и Q167Z2 ROSDO, A1AY35 PARDP и Q16C81 ROSDO.

Примеры паралогов: RUVB ROSDO и Q167Z2 ROSDO, A1AY35 PARDP и A1B8N4 PARDP, A1BBJ2 PARDP и A1AZV8 PARDP.

Ортологические группы

Разными цветами обозначила ортологичные группы

"Схлопнула" ортологичные группы

Получилось четыре ортологичные группы:

FTSH- АТФ-зависимая цинковая металлопротеаза, в кладу вошли все организмы.

CLPA- АТФ-зависимый компонент ClpA протеазы, в кладу вошли только три организма, не попали ACICJ, ROSDO и RHIME.

CLPX- АТФ-зависимый компонент АТФ-связывающей Clp протеазы, в кладу вошли все организмы.

HSLU- АТФ-зависимый компонент АТФ-связывающей HslU протеазы, в кладу вошли все организмы.

Топология дерева со "схлопнутыми" кладами не отличается от исходной.