Практикум №4

Составление списка гомологичных белков, включающих паралоги

Из папки Proteoms было выбрано 7 бактерий отдела Pseudomonadota: NEIMA.fasta, ACICJ.fasta, SERP5.fasta, POLAQ.fasta, THIDA.fasta, BRUSU.fasta, ECOLI.fasta.

Далее необходимо было в выбранных протеомах найти достоверные гомологи белка CLPX_ECOLI, для этого использовали программу blastp с порогом E-value 0.0001. Но для начала нужно было проиндексировать каждый протеом (с др. фаста файлами аналогично). Команда:

makeblastdb -in NEIMA.fasta -dbtype prot -out NEIMA_database

Затем уже был проведен сам поиск blastp:

blastp -query CLPX_ECOLI -db NEIMA_database -out resut_NEIMA.txt -evalue 0.0001 -outfmt 6

Все полученные результаты объединили в один общий файл all_results.txt. Выбрали уникальные белки.

Далее из каждого фаста-файла протеома мы вытащили все белки, который нашел blast. Записали все последовательности в файл, предварительно отредактировав названия.

После выравнивания получили файл, который затем использовали для запуска реконструкции дерева. Получили скобочную формулу дерева.

Примеры паралогов:

  1. RUVB NEIMA и A0A0U1RJ22 NEIMA. RuvB - белок из бактерии Neisseria meningitidis, участвующий в репарации ДНК (миграция Холлидеевских структур). А0А0U1RJ22 — белок из той же бактерии, ассоциированный с репликационной рекомбинацией (участвует в процессах рекомбинации при репликации ДНК).
  2. CLPX SERP5 и HSLU SERP5. CLPX — АТФ-зависимая Clp-протеаза, АТФ-связывающая субъединица ClpX из бактерии Serratia proteamaculans. HSLU — АТФ-зависимая протеаза, АТФазная субъединица HslU.

Представленные выше примеры действительно являются паралогами, т.к. находятся в одном организме, то есть произошли от общего предка, однако выполняют разные (хоть и родственные) функции.

Примеры ортологов:

  1. CLPX BRUSU и CLPX ACICJ. Оба являются АТФ-зависимой Clp-протеазой, АТФ-связывающей субъединицей ClpX, но выделены из разных бактерий: Brucella suis и Acidiphilium cryptum соответственно.
  2. Q3SFW1 THIDA и HSLU ECOLI. Оба являются АТФ-зависимой протеазой, АТФазной субъединицей HslU, но выделены из разных бактерий: Thiobacillus denitrificans и Escherichia coli соответственно.
Филогенетическое дерево
Рис.1 Изображение филогенетического дерева построенного по выравниванию программой IQ-TREE, с помощью iTOL, bootstrep 1000 реплик, укоренение в среднюю точку. Разными цветами отмечены разные ортологические группы: фиолетовый — ClpX, синий — ClpA, зелёный — HslU, красный — FtsH. Группы, содержащие 1 последовательность (RuvB из NEIMA и A0A0U1RJ22 из NEIMA), показаны чёрным и оранжевым цветом.
Филогенетическое дерево
Рис.2 Изображение филогенетического дерева, построенного по выравниванию программой IQ-TREE, с помощью iTOL, bootstrep 1000 реплик, укоренение в среднюю точку. Группы, содержащие более 3 белков, "схлопнуты" в треугольники.
В фиолетовой кладе находятся АТФ-зависимые Clp-протеазы, АТФ-связывающие субъединицы ClpX из всех 7 организмов, причём эти белки соответствуют филогении бактерий: первыми отделяется общая клада белков из ACICJ и BRUSU, что полностью совпадает с эталонным видовым деревом.
В синей кладе находятся белки ClpA (паралог ClpX) из трёх организмов (ECOLI, SERP5, THIDA). Наблюдаемое отделение THIDA от общего предка ECOLI и SERP5 не противоречит филогении бактерий.
В зелёной кладе находятся АТФ-зависимые протеазы HslU из 5 организмов (ACICJ, BRUSU, ECOLI, SERP5, THIDA). Топология внутри клады соответствует филогении бактерий: белки из ACICJ и BRUSU образуют общую кладу и отделяются первыми.
В красной кладе находятся АТФ-зависимые цинковые металлопротеазы FtsH из 6 организмов (все, кроме NEIMA). Эта клада не совсем соответствует филогении бактерий: белки из ECOLI и SERP5 отделяются первыми, тогда как по эталонному видовому дереву они должны быть одними из последних. Остальноые ветвления никак не противоречат дереву видов.
Филогенетическое дерево
Рис.3 Изображение филогенетического дерева видов, построенного по образцу.