Составление списка гомологичных белков, включающих паралоги

Для выполнения этого пункта была создана локальная база данных из протеомов выбранных бактерий с помощью следующих команд (все команды выполнялись в директории ~uma/term4/block1/pr4/, в директорию ~uma/term4/block1/pr4/proteomes/ были скопированы протеомы бактерий).

makeblastdb -dbtype prot -in ./proteomes/*.fasta -out results.out

blastp -query CLPX_ECOLI.fasta -db ./proteomes/all.fasta -evalue 0.001 -out blast_output.txt

Выдача доступна по ссылке.

In [ ]:
import pandas as pd
from IPython.display import Image
In [ ]:
blast_output = pd.read_csv('blast_output.tsv', sep='\t')
blast_output.index = blast_output['Name']
blast_output.drop('Name', inplace=True, axis=1)
blast_output
Out[ ]:
Score E-value
Name
CLPX_RHOJR 534.0 0.000000e+00
CLPX_NOCSJ 528.0 0.000000e+00
Q1AVT0_RUBXD 524.0 0.000000e+00
CLPX_CORDI 518.0 0.000000e+00
CLPX_ARTS2 516.0 0.000000e+00
Q47MU4_THEFY 516.0 0.000000e+00
CLPX_LEIXX 509.0 1.000000e-180
CLPX_BIFLO 432.0 1.000000e-149
A0K1M3_ARTS2 54.3 6.000000e-08
Q1AU05_RUBXD 52.0 3.000000e-07
Q8G871_BIFLO 51.2 7.000000e-07
Q0S6Y7_RHOJR 47.8 8.000000e-06
Q0S8C7_RHOJR 47.0 1.000000e-05
Q6NFB1_CORDI 45.8 4.000000e-05
Q47MZ2_THEFY 43.9 1.000000e-04
Q1AY82_RUBXD 43.5 2.000000e-04
RUVB_BIFLO 42.7 2.000000e-04
Q6ACQ0_LEIXX 43.1 2.000000e-04
Q8G3S2_BIFLO 43.1 2.000000e-04
RUVB_ARTS2 42.4 3.000000e-04
A1SDV1_NOCSJ 42.0 5.000000e-04
Q47KU4_THEFY 42.0 5.000000e-04
A0JR82_ARTS2 41.6 6.000000e-04
A0K236_ARTS2 41.6 6.000000e-04
Q0S8E3_RHOJR 41.2 1.000000e-03

Реконструкция и визуализация

Дерево было реконструировано в программе MEGA методом Maximum likelihood. Ознакомиться с ним в Newick-формате можно по ссылке.

Пары белков-ортологов:

  1. CLPX_RHOJR и CLPX_NOCSJ;
  2. CLPX_CORDI и CLPX_ARTS2;
  3. RUBV_ARTS2 и RUBV_BIFLO.

Пары белков-паралогов:

  1. CLPX_BIFLO и RUBV_BIFLO;
  2. CLPX_CORDI и Q6NFB1_CORDI;
  3. CLPX_RHOJR и Q0S8E3_RHOJR.

Ниже приведено дерево с выделенными разными цветами ортологичными группами.

In [ ]:
Image('upgma_tree_full.png')
Out[ ]:

Дерево с объединенными ортологичными группами.

In [ ]:
Image('upgma_tree_collapsed.png')
Out[ ]:

Далее сравним филогению ортологических групп с филогенией бактерий.

In [ ]:
Image('pr1_tree.png')
Out[ ]:

Рассмотрим группу, выделенную красным (содержит белок АТФ-связывающую субъединицу АТФ-зависимой протеазы Clp). В группе присутствуют автоматически аннотированные белки из базы данных TrEMBL. Поддерево не содержит ни одной общей ветви с эталонным, они расходятся. Присутствует клада (ARTS2, LEIXX).

В группе, выделенной зеленым, находится белок: хеликаза структуры Холидея RuvB, обнаруженная в бактериях Bifidobacterium longum и Arthrobacter sp.

Желтая группа (содержит белки, имеющие домен ClpR) имеет одну общую нетривиальную ветвь с эталонным деревом: RUBXD против остальных бактерий. Выделяется клада (RHOJR, CORDI).

Фиолетовая группа (белок - АТФ-зависимая цинковая металлопротеаза FtsH) не содержит общих ветвей. Видны клады (ARTS2, LEIXX), (NOCSJ, THEFY).