Практикум 4. Ортологи и паралоги, визуализация

Этот практикум посвящён реконструкции филогении гомологичных белков из 8 видов протеобактерий и поиску среди них паралогов и ортологов (ортологичных групп).

Составление списка гомологичных белков

Для выполнения задания было предложено найти гомологи белка CLPX_ECOLI в протеомах выбранных в практикуме 1 бактерий. С этой целью последовательности белков из протеомов были записаны в файл proteomes.fasta, после чего этот файл был использован при создании базы для blast, по которой с помощью blastp был выполнен поиск гомологов CLPX_ECOLI:

makeblastdb -in proteomes.fasta -dbtype prot -out proteomes

blastp -query CLPX_ECOLI.fasta -db proteomes -evalue 0.001 -out clpx_search.txt

Ниже приведён фрагмент файла из выдачи blastp с перечислением всех найденных белков:

                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value

  sp|A8GAR0|CLPX_SERP5 ATP-dependent Clp protease ATP-binding sub...   806    0.0..
  sp|Q8ZC66|CLPX_YERPE ATP-dependent Clp protease ATP-binding sub...   805    0.0..
  sp|B4EU54|CLPX_PROMH ATP-dependent Clp protease ATP-binding sub...   769    0.0..
  sp|Q21KA8|CLPX_SACD2 ATP-dependent Clp protease ATP-binding sub...   645    0.0..
  sp|Q1BH84|CLPX_BURCA ATP-dependent Clp protease ATP-binding sub...   621    0.0..
  sp|P57981|CLPX_PASMU ATP-dependent Clp protease ATP-binding sub...   612    0.0..
  sp|Q8UFY5|CLPX_AGRFC ATP-dependent Clp protease ATP-binding sub...   596    0.0..
  sp|P44838|CLPX_HAEIN ATP-dependent Clp protease ATP-binding sub...   587    0.0..
  sp|Q21H71|HSLU_SACD2 ATP-dependent protease ATPase subunit HslU...  99.8    7e-23
  sp|A8GL96|HSLU_SERP5 ATP-dependent protease ATPase subunit HslU...  96.7    9e-22
  sp|B4F171|HSLU_PROMH ATP-dependent protease ATPase subunit HslU...  96.7    1e-21
  sp|Q8ZJJ5|HSLU_YERPE ATP-dependent protease ATPase subunit HslU...  95.1    2e-21
  sp|P57968|HSLU_PASMU ATP-dependent protease ATPase subunit HslU...  93.2    1e-20
  sp|Q8UJ87|HSLU_AGRFC ATP-dependent protease ATPase subunit HslU...  92.0    3e-20
  sp|P43773|HSLU_HAEIN ATP-dependent protease ATPase subunit HslU...  92.0    3e-20
  sp|Q1BSM8|HSLU_BURCA ATP-dependent protease ATPase subunit HslU...  82.4    5e-17
  tr|A8GCD8|A8GCD8_SERP5 ATP-dependent Clp protease, ATP-binding ...  51.6    6e-07
  tr|B4F2B3|B4F2B3_PROMH ATP-dependent zinc metalloprotease FtsH ...  46.6    2e-05
  tr|A8G901|A8G901_SERP5 ATP-dependent zinc metalloprotease FtsH ...  46.2    2e-05
  tr|A0A2S9PH39|A0A2S9PH39_YERPE Putative magnesium chelatase fam...  46.2    2e-05
  tr|A0A5P8YCE6|A0A5P8YCE6_YERPE Cell division protein OS=Yersini...  45.8    3e-05
  tr|Q7CT50|Q7CT50_AGRFC ATP-dependent zinc metalloprotease FtsH ...  45.4    5e-05
  tr|A0A0H2XMS5|A0A0H2XMS5_BURCA ATP-dependent zinc metalloprotea...  43.9    1e-04
  tr|Q9CNJ2|Q9CNJ2_PASMU ATP-dependent zinc metalloprotease FtsH ...  43.1    2e-04
  sp|P71377|FTSH_HAEIN ATP-dependent zinc metalloprotease FtsH OS...  42.7    3e-04

Затем был составлен список найденных последовательностей (getseq.txt), после чего они были переданы из протеомов в файл seq.fasta.

Реконструкция и визуализация

Для реконструкции филогении полученных белковых последовательностей они были предварительно выровнены с помощью muscle (align_seq.fasta) и импортированы в MEGA-X. Далее по выравниванию методом UPGMA было реконструировано филогенетическое дерево (при этом было сделано 500 bootstrap-реплик, и полученное консенсусное дерево по топологии совпало с изначальным). Ниже приведено полученное дерево в формате Newick:

((((((((((CLPX_SERP5:0.02174256,CLPX_YERPE:0.02174256)1.0000:0.04452091,CLPX_PROMH:0.06626346)1.0000:0.08012421,CLPX_SACD2:0.14638768)0.8840:0.01937454,CLPX_BURCA:0.16576222)0.7400:0.02359197,CLPX_AGRFC:0.18935418)0.5840:0.01188770,(CLPX_PASMU:0.12812027,CLPX_HAEIN:0.12812027)0.9980:0.07312161)1.0000:0.27454992,(HSLU_AGRFC:0.26060438,(HSLU_BURCA:0.20940395,(HSLU_SACD2:0.15483264,((HSLU_PASMU:0.04607745,HSLU_HAEIN:0.04607745)1.0000:0.06819809,(HSLU_PROMH:0.05981814,(HSLU_SERP5:0.04237829,HSLU_YERPE:0.04237829)0.9640:0.01743985)1.0000:0.05445739)1.0000:0.04055711)1.0000:0.05457130)0.9980:0.05120043)1.0000:0.21518742)1.0000:0.41974528,(A0A0H2XMS5_BURCA:0.28752253,(Q7CT50_AGRFC:0.27970900,((Q9CNJ2_PASMU:0.07197526,FTSH_HAEIN:0.07197526)1.0000:0.08015154,(B4F2B3_PROMH:0.08295737,(A8G901_SERP5:0.04230164,A0A5P8YCE6_YERPE:0.04230164)1.0000:0.04065573)1.0000:0.06916943)1.0000:0.12758220)0.6140:0.00781353)1.0000:0.60801456)0.7340:0.05063351,A8GCD8_SERP5:0.94617060)0.0000:0.00000000,A0A2S9PH39_YERPE:1.07312637);

На рисунке 1 можно увидеть реконструированное дерево.

Рисунок 1. Филогенетическое дерево гомологов CLPX_ECOLI из протеомов выбранных протеобактерий, построенное методом UPGMA (длины ветвей не в масштабе, ортологичные группы обозначены разными цветами)

Если считать, что дерево реконструировано верно, то, например, CLPX_SERP5 и CLPX_PROMH, CLPX_PASMU и CLPX_HAEIN, CLPX_AGRFC и CLPX_BURCA являются ортологами, а CLPX_SERP5 и HSLU_SERP5, HSLU_HAEIN и FTSH_HAEIN, CLPX_PASMU и Q9CNJ2_PASMU - паралогами.

На рисунке 2 изображено это же дерево, но листья, принадлежащие одной оротологичной группе, объединены между собой.

Рисунок 2. Филогенетическое дерево гомологов CLPX_ECOLI, белки ортологичных групп объединены

В ортологичной группе ATP-dependent protease subunit CplX содержатся 8 белков (т. е. присутствуют белки из всех выбранных бактерий), но реконструкция их филогении отличается от корректной филогении видов бактерий: дерево видов включает ветвь {SERP5, YERPE, PROMH, HAEIN, PASMU} vs {SACD2, BURCA, AGRFC}, тогда как полученное дерево белков подразумевает наличие ветви {PASMU, HAEIN} vs {SERP5, YERPE, PROMH, SACD2, BURCA, AGRFC}. Стоит упомянуть, однако, что эта ветвь имеет наименьшее значение bootstrap-поддержки из всех.

Группа ATP-dependent protease subunit HslU также включает в себя белки из всех 8 бактерий, но филогения этой группы совпадает с филогенией видов.

В группу ATP-dependent zinc metalloprotease FtsH объединены 7 белков (нет белка из SACD2), и филогения группы реконструирована правильно.