Практикум №4
Составление списка гомологичных белков, включающих паралоги
Из папки Proteoms было выбрано 7 бактерий отдела Pseudomonadota: NEIMA.fasta, ACICJ.fasta, SERP5.fasta, POLAQ.fasta, THIDA.fasta, BRUSU.fasta, ECOLI.fasta.
Далее необходимо было в выбранных протеомах найти достоверные гомологи белка CLPX_ECOLI, для этого использовали программу blastp с порогом E-value 0.0001. Но для начала нужно было проиндексировать каждый протеом (с др. фаста файлами аналогично). Команда:
makeblastdb -in NEIMA.fasta -dbtype prot -out NEIMA_database
Затем уже был проведен сам поиск blastp:
blastp -query CLPX_ECOLI -db NEIMA_database -out resut_NEIMA.txt -evalue 0.0001 -outfmt 6
Все полученные результаты объединили в один общий файл all_results.txt. Выбрали уникальные белки.
Далее из каждого фаста-файла протеома мы вытащили все белки, который нашел blast. Записали все последовательности в файл, предварительно отредактировав названия.
После выравнивания получили файл, который затем использовали для запуска реконструкции дерева. Получили скобочную формулу дерева.
Примеры паралогов:
- RUVB NEIMA и A0A0U1RJ22 NEIMA. RuvB - белок из бактерии Neisseria meningitidis, участвующий в репарации ДНК (миграция Холлидеевских структур). А0А0U1RJ22 — белок из той же бактерии, ассоциированный с репликационной рекомбинацией (участвует в процессах рекомбинации при репликации ДНК).
- CLPX SERP5 и HSLU SERP5. CLPX — АТФ-зависимая Clp-протеаза, АТФ-связывающая субъединица ClpX из бактерии Serratia proteamaculans. HSLU — АТФ-зависимая протеаза, АТФазная субъединица HslU.
Представленные выше примеры действительно являются паралогами, т.к. находятся в одном организме, то есть произошли от общего предка, однако выполняют разные (хоть и родственные) функции.
Примеры ортологов:
- CLPX BRUSU и CLPX ACICJ. Оба являются АТФ-зависимой Clp-протеазой, АТФ-связывающей субъединицей ClpX, но выделены из разных бактерий: Brucella suis и Acidiphilium cryptum соответственно.
- Q3SFW1 THIDA и HSLU ECOLI. Оба являются АТФ-зависимой протеазой, АТФазной субъединицей HslU, но выделены из разных бактерий: Thiobacillus denitrificans и Escherichia coli соответственно.
В фиолетовой кладе находятся АТФ-зависимые Clp-протеазы, АТФ-связывающие субъединицы ClpX из всех 7 организмов, причём эти белки соответствуют филогении бактерий: первыми отделяется общая клада белков из ACICJ и BRUSU, что полностью совпадает с эталонным видовым деревом.
В синей кладе находятся белки ClpA (паралог ClpX) из трёх организмов (ECOLI, SERP5, THIDA). Наблюдаемое отделение THIDA от общего предка ECOLI и SERP5 не противоречит филогении бактерий.
В зелёной кладе находятся АТФ-зависимые протеазы HslU из 5 организмов (ACICJ, BRUSU, ECOLI, SERP5, THIDA). Топология внутри клады соответствует филогении бактерий: белки из ACICJ и BRUSU образуют общую кладу и отделяются первыми.
В красной кладе находятся АТФ-зависимые цинковые металлопротеазы FtsH из 6 организмов (все, кроме NEIMA). Эта клада не совсем соответствует филогении бактерий: белки из ECOLI и SERP5 отделяются первыми, тогда как по эталонному видовому дереву они должны быть одними из последних. Остальноые ветвления никак не противоречат дереву видов.