Практические аспекты реконструкции филогении. Ортологи и паралоги.

В итоговом практикуме из блока, посвящённого филогенетике, предлагалось провести реконструкцию деревьев по последовательностям белков, являющихся гомологами белка ClpX из E.coli. ClpX — это высококонсервативный белок-шаперон из семейства ААА+ АТФаз, представляющий собой регуляторную субъединицу протеазы ClpXP, который распознаёт и разворачивает определённые субстраты, а также осуществляет контроль качества белка. Благодаря своей консервативности этот белок находит широкое применение в филогенетике при изучении эволюционных взаимосвязей между далёкими группами организмов.

Составление списка гомологичных белков, включающих паралоги

Из соответствующей директории на kodomo, содержащей 15 полных протеомов бактерий из отдела Pseudomonadota, были выбраны 8 бактерий (см. Рис. 1.), по протеомам которых проводился поиск белков, гомологичных ClpX из E.coli. Поиск осуществлялся программой blastp с низким порогом на e-value, равным 0,0001. Перед этим был получен общий fasta-файл, содержащий последовательности протеомов выбранных бактерий, который затем был проиндексирован с помощью программы makeblastdb. Список полученных находок из выдачи BLAST. Ниже приведены команды из терминала, производящие вышеописанные манипуляции:

cat BARHE.fasta BORPE.fasta NEIMA.fasta PSEMY.fasta RHIME.fasta SHEDO.fasta THIDA.fasta YERPE.fasta > merge.fasta
makeblastdb -in merge.fasta -dbtype prot
blastp -query CLPX_ECOLI.fasta -db merge.fasta -out blast.out -evalue 0.0001

Рис. 1. Филогенетическое дерево, отображающее эволюционные взаимоотношения между бактериями, по протеомам которых производился поиск гомологов белка ClpX из E.coli.

Реконструкция и визуализация находок

Полученные с помощью blastp находки, хранящиеся в файле blast.out, затем были помещены в файл homologs.fasta, хранящий только ID белков-гомологов и соответствующие им последовательности. Далее гомологичные белки выравнивались программой muscle и по выравненным последовательностям реконструировалось дерево найденных гомологов. Затем на таком дереве были выделены ортологические группы белков и отображены в двух форматах (см. Рис. 2. и Рис. 3.). Ссылка на файл со скобочной последовательностью в формате Newick, по которой строились деревья. Ниже приведены команды, с помощью которых проводились описанные выше манипуляции:

muscle -align homologs.fasta -output homologs_aligned.fasta
fastme -i homologs_aligned.phy -o homologs_aligned_no_gaps.nwk -p -b 100

Рис. 2. Филогенетическое дерево, построенное по выравниванию последовательностей гомологов белка Clpx из E.coli. Дерево строилось программой fastme с использованием самой продвинутой и установленной по дефолту эволюционной модели LG. Разными цветами покрашены разные ортологические группы. Видно, что A0A5P8YB42_YERPE не входит ни в одну из выделенных ортологических групп, а потому не выделен цветом. Укоренение дерева происходило в среднюю точку.
Рис. 3. Филогенетическое дерево гомологов белка Clpx из E.coli со "схлопнутыми" ортологическими группами (кладами). Красным треугольником обозначена ортологическая группа белка HSLU, состоящая из организмов BARHE, RHIME, THIDA, BORPE, PSEMY, SHEDO и YERPE, содержащая также гомологичный белок Q3SFW1 из организма THIDA. Зелёным треугольнком обозначена клада, состоящая из ортологичных белков A0A5P8YCE6, Q92M98, A0A0H3LXZ4 из организмов YERPE, RHIME и BARHE, соответственно. Клада, обозначенная синим треугольником, представлена организмами NEIMA, BARHE, RHIME, SHEDO, YERPE, PSEMY, BORPE и THIDA, содержащими ортологи белка ClpX. Филогения ортологичных белков из красной и зелёной клад полностью соответствует филогении бактерий, в то время как филогения ортологов синей клады частично не соответствует топологии дерева бактерий, в частности, отличие заключается в недостоверной реконструкции группы, состоящей из листьев PSEMY, BORPE и THIDA, что подтверждается низкой поддержкой бутстрепа для соответствующих ветвей (см. Рис. 2.).

На реконструированном дереве можно выделить несколько пар ортологов, например, HSLU BARHE и HSLU RHIME, Q92M98 RHIME и A0A0H3LXZ4 BARHE, CLPX BORPE и CLPX THIDA.

Аналогично можно выделить несколько пар паралогов: HSLU BARHE и CLPX BARHE, HSLU YERPE и A0A5P8YCE6 YERPE, Q92M98 RHIME и CLPX RHIME.