В этой части практикума необходимо было найти последовательности, гомологичные последовательности субъединице АТФ-зависимой протеазы из семейства CLP (семейство сериновых протеаз) из организма E.Coli.
Вначале была скачана последовательность белка CLPX_ECOLI из базы данных Uniprot с помощью команды wget.
После этого на основе протеомов 8 бактерий, выбранных в предыдущем практикуме был создан
индексный файл, в котором и проводился поиск гомологичных белковых последовательностей.
После запуска команды
blastp -query P0A6H1.fasta -db proteomes.fasta -evalue 0.001
получили такую выдачу (представлена ниже).
Score E Sequences producing significant alignments: (Bits) Value CLPX_SERP5 A8GAR0 ATP-dependent Clp protease ATP-binding subuni... 806 0.0 CLPX_YERPE Q8ZC66 ATP-dependent Clp protease ATP-binding subuni... 805 0.0 CLPX_PSEAE Q9I2U0 ATP-dependent Clp protease ATP-binding subuni... 654 0.0 CLPX_SACD2 Q21KA8 ATP-dependent Clp protease ATP-binding subuni... 645 0.0 CLPX_THIDA Q3SI99 ATP-dependent Clp protease ATP-binding subuni... 642 0.0 CLPX_BORPE Q7VXI6 ATP-dependent Clp protease ATP-binding subuni... 613 0.0 CLPX_POLAQ A4SXD7 ATP-dependent Clp protease ATP-binding subuni... 613 0.0 CLPX_ACICJ A5FX05 ATP-dependent Clp protease ATP-binding subuni... 583 0.0 HSLU_SACD2 Q21H71 ATP-dependent protease ATPase subunit HslU OS... 99.8 7e-23 HSLU_SERP5 A8GL96 ATP-dependent protease ATPase subunit HslU OS... 96.7 9e-22 HSLU_PSEAE Q9HUC5 ATP-dependent protease ATPase subunit HslU OS... 95.9 2e-21 HSLU_YERPE Q8ZJJ5 ATP-dependent protease ATPase subunit HslU OS... 95.1 2e-21 HSLU_BORPE Q7VUJ9 ATP-dependent protease ATPase subunit HslU OS... 93.6 8e-21 A5FYD7_ACICJ A5FYD7 ATP-dependent protease ATPase subunit HslU ... 92.0 3e-20 Q3SFW1_THIDA Q3SFW1 ATP-dependent protease ATPase subunit HslU ... 86.7 2e-18 A8GCD8_SERP5 A8GCD8 ATP-dependent Clp protease, ATP-binding sub... 51.6 5e-07 A8G901_SERP5 A8G901 ATP-dependent zinc metalloprotease FtsH OS=... 46.2 2e-05 A0A2S9PH39_YERPE Putative magnesium chelatase family protein OS... 46.2 2e-05 A0A5P8YCE6_YERPE Cell division protein OS=Yersinia pestis OX=63... 45.8 3e-05 A5FVF9_ACICJ A5FVF9 ATP-dependent zinc metalloprotease FtsH OS=... 44.7 7e-05 Q3SJR4_THIDA Q3SJR4 ATP-dependent zinc metalloprotease FtsH OS=... 43.5 2e-04 A4SXL5_POLAQ A4SXL5 ATP-dependent zinc metalloprotease FtsH OS=... 43.5 2e-04 Q9HV48_PSEAE Q9HV48 ATP-dependent zinc metalloprotease FtsH OS=... 43.5 2e-04
Более полно выдачу можно посмотреть по этой ссылке
После того, как мы получили выдачу из BLAST, мы скопировали все идентификаторы интересующих нас белков и залили их в Jalview -> Fetch sequences. После этого с помощью программы muscle со стандартными настройками было проведено множественное выравнивание. Затем на основе этого выравнивания было построено дерево в программе MEGA-X с помощью метода Neighbour Joining. Ниже приведена скобочная формула получившегося дерева.
((((((((CLPX_SERP5,CLPX_YERPE),(CLPX_PSEAE,CLPX_SACD2)),CLPX_THIDA),(CLPX_BORPE,CLPX_POLAQ)),CLPX_ACICJ),(A5FYD7_ACICJ,((HSLU_BORPE,Q3SFW1_THIDA),((HSLU_SACD2,HSLU_PSEAE),(HSLU_SERP5,HSLU_YERPE))))),A8GCD8_SERP5),(A5FVF9_ACICJ,((Q3SJR4_THIDA,A4SXL5_POLAQ),(Q9HV48_PSEAE,(A8G901_SERP5,A0A5P8YCE6_YERPE)))),A0A2S9PH39_YERPE);
Визуализация дерева проводилась с помощью iTOL. Ниже представлена фотография полученного дерева (так как в Newick-формуле хранится неукорененное дерево, мы его укоренили в ветвь A0A2S9PH39 YERPE.
Ортологами являются пары HSLU_BORPE и HSLU_YERPE, CLPX_YERPE и CLPX_BORPE,Q9HV48_PSEAE и A4SXL5_POLAQ.
Паралогами являются пары HSLU_PSEAE и Q9HV48_PSEAE, CLPX_YERPE и HSLU_YERPE, HSLU_BORPE и CLPX_BORPE.
Иногда мнемоники последовательностей отличаются, несмотря на одну функцию, поэтому нами просматривались описания последовательностей для того, чтобы выделить несколько групп.
В частности, удалось выделить группы:
Ниже представлена филогения белков CLPX. Все 8 протеобактерий содержат этот белок. Дерево не совпадает с филогенией бактерий (в частности, THIDA в филогении бактерий
расположен ближе к BORPE и POLAQ, в отличие от филогении по белку).
Филогения белков HSLU. 7 из 8 протеобактерий содержат этот белок. Дерево почти совпадает с филогенией бактерий (в этом дереве отсутствует вид с мнемоникой POLAQ, однако, если его
не учитывать, дерево такое же, как и дерево, описывающее филогению бактерий.).