Паралоги, визуализация

1. Составление списка гомологичных белков, включающих паралоги

Предварительно протеомы ранее отобранных мною бактерий были объеденены в отдельный файл для дальнейшего запуска BLAST. После чего были выполнены следующие команды:

makeblastdb -dbtype prot -in prots.fasta -out prots
blastp -query CLPX_ECOLI.fasta -db prots -evalue 0.001 -out output.blast
Далее приведены результаты выдачи программы:

                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value

  sp|Q820F8|CLPX_STRAW ATP-dependent Clp protease ATP-binding sub...  535     0.0   
  sp|Q6NFU7|CLPX_CORDI ATP-dependent Clp protease ATP-binding sub...  518     0.0   
  sp|A0JXL2|CLPX_ARTS2 ATP-dependent Clp protease ATP-binding sub...  516     0.0   
  tr|Q47MU4|Q47MU4_THEFY ATP-dependent Clp protease ATP-binding s...  516     0.0   
  sp|Q6AFZ6|CLPX_LEIXX ATP-dependent Clp protease ATP-binding sub...  509     0.0   
  sp|B0RAS4|CLPX_CLAMS ATP-dependent Clp protease ATP-binding sub...  491     1e-173
  sp|Q8G5R1|CLPX_BIFLO ATP-dependent Clp protease ATP-binding sub...  432     8e-150
  tr|A0K1M3|A0K1M3_ARTS2 ATPase AAA-2 domain protein OS=Arthrobac...  54.3    5e-08 
  tr|Q8G871|Q8G871_BIFLO Protease OS=Bifidobacterium longum (stra...  51.2    6e-07 
  tr|Q6NFB1|Q6NFB1_CORDI ATP-dependent Clp protease ATP-binding s...  45.8    3e-05 
  tr|Q47MZ2|Q47MZ2_THEFY ATPase OS=Thermobifida fusca (strain YX)...  43.9    1e-04 
  sp|Q8G6B7|RUVB_BIFLO Holliday junction ATP-dependent DNA helica...  42.7    2e-04 
  tr|Q6ACQ0|Q6ACQ0_LEIXX ATP-dependent zinc metalloprotease FtsH ...  43.1    2e-04 
  tr|Q8G3S2|Q8G3S2_BIFLO ATP-dependent zinc metalloprotease FtsH ...  43.1    2e-04 
  sp|A0JXB1|RUVB_ARTS2 Holliday junction ATP-dependent DNA helica...  42.4    2e-04 
  tr|Q82QV8|Q82QV8_STRAW Putative AAA family ATPase OS=Streptomyc...  41.6    3e-04 
  tr|Q47KU4|Q47KU4_THEFY ATP-dependent zinc metalloprotease FtsH ...  42.0    4e-04 
  tr|A0JR82|A0JR82_ARTS2 ATP-dependent zinc metalloprotease FtsH ...  41.6    5e-04 
  tr|A0K236|A0K236_ARTS2 AAA ATPase, central domain protein OS=Ar...  41.6    5e-04 
  tr|Q82EE9|Q82EE9_STRAW ATP-dependent zinc metalloprotease FtsH ...  41.6    5e-04 
  tr|Q82EB8|Q82EB8_STRAW Putative ATP-dependent Clp protease OS=S...  41.6    6e-04 
  tr|B0RHW4|B0RHW4_CLAMS ATP-dependent zinc metalloprotease FtsH ...  41.2    7e-04 
  tr|Q6NF92|Q6NF92_CORDI ATP-dependent zinc metalloprotease FtsH ...  40.8    0.001 

Видно, что полученные выравнивания имеют высокий Score и очень низкие значения e-value. Как и следовало ожидать, верхние 7 находок - АТФ-связывающие субъединицы Clp протеаз рассматриваемых мною бактерий. Далее в списке идут другие АТФ-зависимые белки, но e-value в их случае на много порядков ниже.

2. Реконструкция и визуализация

Дерево было реконструировано методом Neighbor joining в программе MEGA. Newick-формат доступен по ссылке.

tree
Полная реконструкция

Паралоги:
  1. RUVB_ARTS2 и CLPX_ARTS2
  2. Q8G871_BIFLO и RUVB_BIFLO
  3. Q6ACQ0_LEIXX и CLPX_LEIXX
Ортрологи:
  1. Q47KU4_THEFY и Q82EE9_STRAW
  2. Q6NFB1_CORDI и Q82EB8_STRAW
  3. CLPX_LEIXX и CLPX_CLAMS

Мы наблюдаем 2 крупные ортологичные группы: ClpX (АТФ-связывающие субъединицы Clp протеаз) и FtsH (АТФ-зависимые цинковые металлопротеазы), в каджой из которых присутствуют белки всех семи рассматриваемых бактерий. Но ни одна, ни другая клада не реконструируют филогению бактерий в полной мере. Так, в группе ClpX совпадают с ранее полученным деревом ветви (LEIXX, CLAMS), ((LEIXX, CLAMS), ARTS2), (STRAW, THEFY). У ортологичной группы FtsH похожая ситуация: сохраняются те же ветви, что и у ClpX.

tree
Реконструкция со "схлопнутыми" ортологичными группами