Практикум 4

Составление списка гомологичных белков, включающих паралоги

Были скачены протеом отобранных бактерий из репозитория, после чего объеденены в единый файл proteomes.fasta командой:

cat ./proteomes/*.fasta > proteomes.fasta

После чего этот файл был проиндексирован командой

makeblastdb -in proteomes.fasta -dbtype prot -parse_seqids

Далее локальным запуском blastp были найдены гомологи белка CLPX_ECOLI из полученной выше базы данных, также был установлен порог для e-value равный 0,001.

blastp -query P0A6H1.fasta -db proteomes.fasta -out final.tab -evalue 0.001 -outfmt 7

Выдача команды находится тут.

Реконструкция и визуализация

Все находки были объединены в единый файл, который можно посмотреть тут.

Далее было построено дерево с заданными нам параметрами, которое в формате Newick можно найти тут

Считаем что реконструированное дерево точно правильное, тогда можно привести примеры ортологов и паралогов.

Ортологи Паралоги
A0LRB8_ACIC1,Q47KU4_THEFY A0LRB8_ACIC1,FITSH_ACIC1
CLPX_COREF,CLPX_CLAMS Q82EE9_STRAW,Q82QV8_STRAW
Q8FMH5_COREF,A1TG29_MYCVP RUVB_BIFLO,Q8G3S2_BIFLO

Далее на полученном дереве были покрашены ортологичные группы.

Дерево1
Рис. 1Дерево гомологов CLPX_ECOLI. Ортологичные группы с количеством видов более 3 окрашенны.
Дерево1
Рис. 2Дерево гомологов CLPX_ECOLI.Ортологичные группы схлопнуты,филогенетически дерево совпадает с предыдущим.Cиняя группа состоит из АТФ-зависимых гидролаз.Розовая группа представляет собой СlpX субъединицы АТФ-зависимых протеаз,притом представлены все виды.При сравнении с эталонным деревом для этих видов ясно,что филогенетика их практически не совпадает за исключением ветви с ACIC1,STRAW,THEFY.Зеленная группа представляет собой АТФ-зависимые металлопротеазы цинка,интересно что филогения группы практически идентична эталонному дереву.