Гомологичные белки

Для начала была создана база для blastp из протеомов выбранных ранее бактерий. Далее для CLPX_EXOLI был выполнен blastp. Результат выполения программы доступен по ссылке.

Ниже представлен список находок:

                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value

  sp|Q820F8|CLPX_STRAW ATP-dependent Clp protease ATP-binding sub...  535     0.0   
  sp|Q0SGZ3|CLPX_RHOJR ATP-dependent Clp protease ATP-binding sub...  534     0.0   
  sp|A1SME0|CLPX_NOCSJ ATP-dependent Clp protease ATP-binding sub...  528     0.0   
  sp|Q6NFU7|CLPX_CORDI ATP-dependent Clp protease ATP-binding sub...  518     0.0   
  tr|Q47MU4|Q47MU4_THEFY ATP-dependent Clp protease ATP-binding s...  516     0.0   
  sp|Q6AFZ6|CLPX_LEIXX ATP-dependent Clp protease ATP-binding sub...  509     1e-180
  sp|B0RAS4|CLPX_CLAMS ATP-dependent Clp protease ATP-binding sub...  491     2e-173
  sp|Q8G5R1|CLPX_BIFLO ATP-dependent Clp protease ATP-binding sub...  432     1e-149
  tr|Q8G871|Q8G871_BIFLO Protease OS=Bifidobacterium longum (stra...  51.2    8e-07 
  tr|Q0S6Y7|Q0S6Y7_RHOJR Chaperone protein ClpB OS=Rhodococcus jo...  47.8    9e-06 
  tr|Q0S8C7|Q0S8C7_RHOJR ATP-binding subunit of ATP-dependent Clp...  47.0    1e-05 
  tr|Q6NFB1|Q6NFB1_CORDI ATP-dependent Clp protease ATP-binding s...  45.8    4e-05 
  tr|Q47MZ2|Q47MZ2_THEFY ATPase OS=Thermobifida fusca (strain YX)...  43.9    1e-04 
  sp|Q8G6B7|RUVB_BIFLO Holliday junction ATP-dependent DNA helica...  42.7    2e-04 
  tr|Q6ACQ0|Q6ACQ0_LEIXX ATP-dependent zinc metalloprotease FtsH ...  43.1    2e-04 
  tr|Q8G3S2|Q8G3S2_BIFLO ATP-dependent zinc metalloprotease FtsH ...  43.1    2e-04 
  tr|Q82QV8|Q82QV8_STRAW Putative AAA family ATPase OS=Streptomyc...  41.6    4e-04 
  tr|A1SDV1|A1SDV1_NOCSJ ATP-dependent zinc metalloprotease FtsH ...  42.0    5e-04 
  tr|Q47KU4|Q47KU4_THEFY ATP-dependent zinc metalloprotease FtsH ...  42.0    6e-04 
  tr|Q82EE9|Q82EE9_STRAW ATP-dependent zinc metalloprotease FtsH ...  41.6    7e-04 
  tr|Q82EB8|Q82EB8_STRAW Putative ATP-dependent Clp protease OS=S...  41.6    8e-04 
  tr|B0RHW4|B0RHW4_CLAMS ATP-dependent zinc metalloprotease FtsH ...  41.2    0.001

Из списка находок были получены названия белков, которые понадобились для поиска их последовательностей по uniprot. Скаченные последовательности были выравняны при помощи muscle. В свою очередь по выравниванию методом NJ было реконструировано филогенетическое дерево в программе Mega. Ниже представлена скобочная модель дерева.

((((((((CLPX_STRAW,Q47MU4_THEFY),CLPX_NOCSJ),CLPX_RHOJR),(CLPX_LEIXX,CLPX_CLAMS)),CLPX_CORDI),CLPX_BIFLO),Q47MZ2_THEFY),(Q82QV8_STRAW,(Q0S6Y7_RHOJR,(Q8G871_BIFLO,(Q82EB8_STRAW,(Q0S8C7_RHOJR,Q6NFB1_CORDI))))),(RUVB_BIFLO,((Q6ACQ0_LEIXX,B0RHW4_CLAMS),(Q8G3S2_BIFLO,(Q47KU4_THEFY,(A1SDV1_NOCSJ,Q82EE9_STRAW))))));

Далее дерево было перенесено в iTOL для выделения ортологов и паралогов.

На картинке ниже представлена визуализация дерева с выделением групп белков ATP-dependent Clp protease (CLPX - красный и CLPC - синий) и ATP-dependent zinc metalloprotease (FtsH - зеленый). Также выделены ортологи.

картинка

К примеру, можно указать по 3 пары ортологов и паралогов:

Далее представлена картинка с "схлопнутыми" ортологичными группами.

картинка

Для описания отличий реконструированных деревьев ортологических групп от дерева бактерий была составлена таблица. В первом столбце представлены нетривиальные ветви дерева бактерий, а в колонках - вхождение (+) или невхождение (-) ветви эталонного дерева в соответствующую ортологическую группу.

Нетривиальные ветви эталона CLPX CLPC FtsH
{STRAW, THEFY} vs {NOCSJ, LEIXX, CLAMS, BIFLO, RHOJR, CORDI} + - -
{STRAW, THEFY, NOCSJ} vs {LEIXX, CLAMS, BIFLO, RHOJR, CORDI} + - +
{LEIXX, CLAMS} vs {BIFLO, NOCSJ, STRAW, THEFY, RHOJR, CORDI} + - +
{LEIXX, CLAMS, BIFLO} vs {NOCSJ, STRAW, THEFY, RHOJR, CORDI} - - -
{RHOJR, CORDI} vs {BIFLO, LEIXX, CLAMS, NOCSJ, STRAW, THEFY} - + -

По таблице видно, что группа CLPX имеет большее количество нетривиальных ветвей (3 ветви из 5) исходного дерева, нежли остальные группы. Группа CLPC показала худший результат, однако это единственная группа, которая содержит ветвь (RHOJR, CORDI). Можно сказать, что топология каждого из деревьев, постороенных на основе ортологичных групп, отличается от исходной топологии.