Практические аспекты реконструкции филогении. Ортологи и паралоги.
В итоговом практикуме из блока, посвящённого филогенетике, предлагалось провести реконструкцию деревьев по последовательностям белков, являющихся гомологами белка ClpX из E.coli. ClpX — это высококонсервативный белок-шаперон из семейства ААА+ АТФаз, представляющий собой регуляторную субъединицу протеазы ClpXP, который распознаёт и разворачивает определённые субстраты, а также осуществляет контроль качества белка. Благодаря своей консервативности этот белок находит широкое применение в филогенетике при изучении эволюционных взаимосвязей между далёкими группами организмов.
Составление списка гомологичных белков, включающих паралоги
Из соответствующей директории на kodomo, содержащей 15 полных протеомов бактерий из отдела Pseudomonadota, были выбраны 8 бактерий (см. Рис. 1.), по протеомам которых проводился поиск белков, гомологичных ClpX из E.coli. Поиск осуществлялся программой blastp с низким порогом на e-value, равным 0,0001. Перед этим был получен общий fasta-файл, содержащий последовательности протеомов выбранных бактерий, который затем был проиндексирован с помощью программы makeblastdb. Список полученных находок из выдачи BLAST. Ниже приведены команды из терминала, производящие вышеописанные манипуляции:
cat BARHE.fasta BORPE.fasta NEIMA.fasta PSEMY.fasta RHIME.fasta SHEDO.fasta THIDA.fasta YERPE.fasta > merge.fasta
makeblastdb -in merge.fasta -dbtype prot
blastp -query CLPX_ECOLI.fasta -db merge.fasta -out blast.out -evalue 0.0001
Реконструкция и визуализация находок
Полученные с помощью blastp находки, хранящиеся в файле blast.out, затем были помещены в файл homologs.fasta, хранящий только ID белков-гомологов и соответствующие им последовательности. Далее гомологичные белки выравнивались программой muscle и по выравненным последовательностям реконструировалось дерево найденных гомологов. Затем на таком дереве были выделены ортологические группы белков и отображены в двух форматах (см. Рис. 2. и Рис. 3.). Ссылка на файл со скобочной последовательностью в формате Newick, по которой строились деревья. Ниже приведены команды, с помощью которых проводились описанные выше манипуляции:
muscle -align homologs.fasta -output homologs_aligned.fasta
fastme -i homologs_aligned.phy -o homologs_aligned_no_gaps.nwk -p -b 100
На реконструированном дереве можно выделить несколько пар ортологов, например, HSLU BARHE и HSLU RHIME, Q92M98 RHIME и A0A0H3LXZ4 BARHE, CLPX BORPE и CLPX THIDA.
Аналогично можно выделить несколько пар паралогов: HSLU BARHE и CLPX BARHE, HSLU YERPE и A0A5P8YCE6 YERPE, Q92M98 RHIME и CLPX RHIME.