Ортологи и паралоги

Нахождение гомологичных белков

В этой части практикума необходимо было найти последовательности, гомологичные последовательности субъединице АТФ-зависимой протеазы из семейства CLP (семейство сериновых протеаз) из организма E.Coli.

Рис.1.Модель субъединицы АТФ-зависимой протеазы с сайта PDB.

Вначале была скачана последовательность белка CLPX_ECOLI из базы данных Uniprot с помощью команды wget. После этого на основе протеомов 8 бактерий, выбранных в предыдущем практикуме был создан индексный файл, в котором и проводился поиск гомологичных белковых последовательностей. После запуска команды
blastp -query P0A6H1.fasta -db proteomes.fasta -evalue 0.001
получили такую выдачу (представлена ниже).

                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value

  CLPX_SERP5 A8GAR0 ATP-dependent Clp protease ATP-binding subuni...   806    0.0
  CLPX_YERPE Q8ZC66 ATP-dependent Clp protease ATP-binding subuni...   805    0.0
  CLPX_PSEAE Q9I2U0 ATP-dependent Clp protease ATP-binding subuni...   654    0.0
  CLPX_SACD2 Q21KA8 ATP-dependent Clp protease ATP-binding subuni...   645    0.0
  CLPX_THIDA Q3SI99 ATP-dependent Clp protease ATP-binding subuni...   642    0.0
  CLPX_BORPE Q7VXI6 ATP-dependent Clp protease ATP-binding subuni...   613    0.0
  CLPX_POLAQ A4SXD7 ATP-dependent Clp protease ATP-binding subuni...   613    0.0
  CLPX_ACICJ A5FX05 ATP-dependent Clp protease ATP-binding subuni...   583    0.0
  HSLU_SACD2 Q21H71 ATP-dependent protease ATPase subunit HslU OS...  99.8    7e-23
  HSLU_SERP5 A8GL96 ATP-dependent protease ATPase subunit HslU OS...  96.7    9e-22
  HSLU_PSEAE Q9HUC5 ATP-dependent protease ATPase subunit HslU OS...  95.9    2e-21
  HSLU_YERPE Q8ZJJ5 ATP-dependent protease ATPase subunit HslU OS...  95.1    2e-21
  HSLU_BORPE Q7VUJ9 ATP-dependent protease ATPase subunit HslU OS...  93.6    8e-21
  A5FYD7_ACICJ A5FYD7 ATP-dependent protease ATPase subunit HslU ...  92.0    3e-20
  Q3SFW1_THIDA Q3SFW1 ATP-dependent protease ATPase subunit HslU ...  86.7    2e-18
  A8GCD8_SERP5 A8GCD8 ATP-dependent Clp protease, ATP-binding sub...  51.6    5e-07
  A8G901_SERP5 A8G901 ATP-dependent zinc metalloprotease FtsH OS=...  46.2    2e-05
  A0A2S9PH39_YERPE Putative magnesium chelatase family protein OS...  46.2    2e-05
  A0A5P8YCE6_YERPE Cell division protein OS=Yersinia pestis OX=63...  45.8    3e-05
  A5FVF9_ACICJ A5FVF9 ATP-dependent zinc metalloprotease FtsH OS=...  44.7    7e-05
  Q3SJR4_THIDA Q3SJR4 ATP-dependent zinc metalloprotease FtsH OS=...  43.5    2e-04
  A4SXL5_POLAQ A4SXL5 ATP-dependent zinc metalloprotease FtsH OS=...  43.5    2e-04
  Q9HV48_PSEAE Q9HV48 ATP-dependent zinc metalloprotease FtsH OS=...  43.5    2e-04

Более полно выдачу можно посмотреть по этой ссылке

Реконструкция и визуализация филогенетического дерева

После того, как мы получили выдачу из BLAST, мы скопировали все идентификаторы интересующих нас белков и залили их в Jalview -> Fetch sequences. После этого с помощью программы muscle со стандартными настройками было проведено множественное выравнивание. Затем на основе этого выравнивания было построено дерево в программе MEGA-X с помощью метода Neighbour Joining. Ниже приведена скобочная формула получившегося дерева.

((((((((CLPX_SERP5,CLPX_YERPE),(CLPX_PSEAE,CLPX_SACD2)),CLPX_THIDA),(CLPX_BORPE,CLPX_POLAQ)),CLPX_ACICJ),(A5FYD7_ACICJ,((HSLU_BORPE,Q3SFW1_THIDA),((HSLU_SACD2,HSLU_PSEAE),(HSLU_SERP5,HSLU_YERPE))))),A8GCD8_SERP5),(A5FVF9_ACICJ,((Q3SJR4_THIDA,A4SXL5_POLAQ),(Q9HV48_PSEAE,(A8G901_SERP5,A0A5P8YCE6_YERPE)))),A0A2S9PH39_YERPE);

Визуализация дерева проводилась с помощью iTOL. Ниже представлена фотография полученного дерева (так как в Newick-формуле хранится неукорененное дерево, мы его укоренили в ветвь A0A2S9PH39 YERPE.

Рис.2.Полученное дерево

Ортологами являются пары HSLU_BORPE и HSLU_YERPE, CLPX_YERPE и CLPX_BORPE,Q9HV48_PSEAE и A4SXL5_POLAQ.
Паралогами являются пары HSLU_PSEAE и Q9HV48_PSEAE, CLPX_YERPE и HSLU_YERPE, HSLU_BORPE и CLPX_BORPE.

Иногда мнемоники последовательностей отличаются, несмотря на одну функцию, поэтому нами просматривались описания последовательностей для того, чтобы выделить несколько групп. В частности, удалось выделить группы: