Для выполнения этого пункта была создана локальная база данных из протеомов выбранных бактерий с помощью следующих команд (все команды выполнялись в директории ~uma/term4/block1/pr4/, в директорию ~uma/term4/block1/pr4/proteomes/ были скопированы протеомы бактерий).
makeblastdb -dbtype prot -in ./proteomes/*.fasta -out results.out
blastp -query CLPX_ECOLI.fasta -db ./proteomes/all.fasta -evalue 0.001 -out blast_output.txt
Выдача доступна по ссылке.
import pandas as pd
from IPython.display import Image
blast_output = pd.read_csv('blast_output.tsv', sep='\t')
blast_output.index = blast_output['Name']
blast_output.drop('Name', inplace=True, axis=1)
blast_output
Дерево было реконструировано в программе MEGA методом Maximum likelihood. Ознакомиться с ним в Newick-формате можно по ссылке.
Пары белков-ортологов:
Пары белков-паралогов:
Ниже приведено дерево с выделенными разными цветами ортологичными группами.
Image('upgma_tree_full.png')
Дерево с объединенными ортологичными группами.
Image('upgma_tree_collapsed.png')
Далее сравним филогению ортологических групп с филогенией бактерий.
Image('pr1_tree.png')
Рассмотрим группу, выделенную красным (содержит белок АТФ-связывающую субъединицу АТФ-зависимой протеазы Clp). В группе присутствуют автоматически аннотированные белки из базы данных TrEMBL. Поддерево не содержит ни одной общей ветви с эталонным, они расходятся. Присутствует клада (ARTS2, LEIXX).
В группе, выделенной зеленым, находится белок: хеликаза структуры Холидея RuvB, обнаруженная в бактериях Bifidobacterium longum и Arthrobacter sp.
Желтая группа (содержит белки, имеющие домен ClpR) имеет одну общую нетривиальную ветвь с эталонным деревом: RUBXD против остальных бактерий. Выделяется клада (RHOJR, CORDI).
Фиолетовая группа (белок - АТФ-зависимая цинковая металлопротеаза FtsH) не содержит общих ветвей. Видны клады (ARTS2, LEIXX), (NOCSJ, THEFY).