Практикум 4

Запуск blastp

Я проиндексировала геномы выбраных бактерий, сделав из них базы для blastp. После я искала в них гомологи при помощи blastp с длиной слова 2 и порогом на e-value 0,001. Пример кода для одной бактерии привожу ниже, результаты — в таблице 1.

makeblastdb -in AGRFC.fasta -dbtype prot -out AGRFC_db
blastp -db AGRFC_db -query CLPX_ECOLI -out results_BRUSU -evalue 0.001 -word_size 2
Табл. 1. Результаты blastp.
Организм ID Score (bits) E-value
Agrobacterium fabrum CLPX_AGRFC 596 0.0
Agrobacterium fabrum HSLU_AGRFC 92 4e-21
Agrobacterium fabrum Q7CT50_AGRFC 85.5 6e-19
Agrobacterium fabrum Q7CT50_AGRFC 45.4 7e-06
Agrobacterium fabrum A9CKX5_AGRFC 39.7 3e-04
Agrobacterium fabrum RUVB_AGRFC 39.3 4e-04
Agrobacterium fabrum A9CJ23_AGRFC 38.5 9e-04
Brucella suis CLPX_BRUSU 586 0.0
Brucella suis HSLU_BRUSU 90.9 5e-21
Brucella suis A0A0H3GCZ6_BRUSU 45.4 4e-06
Brucella suis RUVB_BRUSU 39.3 2e-04
Brucella suis A0A0H3G530_BRUSU 39.3 3e-04
Escherichia coli CLPX_ECOLI 860 0.0
Escherichia coli HSLU_ECOLI 93.6 1e-21
Escherichia coli FTSH_ECOLI 46.2 3e-06
Escherichia coli CLPA_ECOLI 43.1 3e-05
Paracoccus denitrificans CLPX_PARDP 580 0.0
Paracoccus denitrificans HSLU_PARDP 103 5e-25
Paracoccus denitrificans A1B8N4_PARDP 50.1 2e-07
Paracoccus denitrificans A1AZV8_PARDP 44.3 1e-05
Paracoccus denitrificans RUVB_PARDP 43.1 3e-05
Paracoccus denitrificans A1BBJ2_PARDP 41.6 1e-04
Paracoccus denitrificans A1AY35_PARDP 41.6 1e-04
Polynucleobacter asymbioticus CLPX_POLAQ 613 0.0
Polynucleobacter asymbioticus A4SXL5_POLAQ 43.5 1e-05
Polynucleobacter asymbioticus A4SZP7_POLAQ 39.7 2e-04
Polynucleobacter asymbioticus A4T0L3_POLAQ 38.1 3e-04
Proteus mirabilis CLPX_PROMH 769 0.0
Proteus mirabilis HSLU_PROMH 96.7 1e-22
Proteus mirabilis B4EV83_PROMH 50.1 2e-07
Proteus mirabilis B4F2B3_PROMH 46.6 2e-06
Yersinia pestis CLPX_YERPE 805 0.0
Yersinia pestis HSLU_YERPE 95.1 3e-22
Yersinia pestis A0A5P8YGZ0_YERPE 51.2 7e-08
Yersinia pestis A0A5P8YB42_YERPE 46.2 3e-06
Yersinia pestis A0A5P8YCE6_YERPE 45.8 3e-06

Дерево гомологов

Я построила филогенетическое дерево этих белков при помощи сервиса NGPhylogeny, используя параметры из задания (MAFFT → FastME, "Gamma distributed rates across sites" — No, "Starting tree" — BIONJ, "No refinement", 100 бутстреп реплик). Скобочная форма дерева доступна для скачивания по ссылке.

Далее я визуализировала полученное дерево при помощи сервиса iTOL (рис. 1 и 2), укоренив его в мидпоинт.

Рис. 1. Филогенентическое дерево белков с выделенными группами ортологов, полученное при помощи сервиса iTOL.

На этом дереве можно видеть множество ортологов и паралогов. Я считала группу белков ортологами, если они составляли одну кладу и в них не было белков из одной бактерии. Примеры пар ортологов — пары HSLU_BRUSU и HSLU_YERPE, CLPX_POLAQ и CLPX_AGRFC, RUVB_PARDP и RUVB_AGRFC. Поскольку мы считаем находки BLAST гомологами, любые два белка из одной бактерии будут паралогами. Примеры пар паралогов — CLPX_AGRFC и HSLU_AGRFC, CLPX_BRUSU и HSLU_BRUSU, CLPX_ECOLI и HSLU_ECOLI.

Рис. 2. Филогенентическое дерево белков со «схлопнутыми» группами ортологов, полученное при помощи сервиса iTOL.
Схлопнутые группы сверху вниз:
1) Белок RuvB, субъединица комплкса, осуществляющего миграцию ветвей в структуре Холлидея;
2) Белок FtsH, АТФ-зависимая цинковая металлотрансфераза;
3) Белок ClpA, АТФ-связывающая субъединица АТФ-зависимой протеазы Clp;
4) Белок HslU, АТФазная субъедница АТФ-зависимой протеазы;
5) Сам белок ClpX, АТФ-связывающая субъединица АТФ-зависимой протеазы Clp.

Во всех группах ортологов, кроме группы белков CLPX, филогения белков соответствовала филогении бактерий. Группа CLPX оказалась как бы неправильно укореннена, белок CLPX_POLAQ оказался самым базальным, тогда как бактерия POLAQ на самом деле объединена в одну кладу с {PROMH, YERPE, ECOLI}. Но у этой неправильной ветви низкая поддержка bootstrap (11).