Homologous proteins & visualisation

Список гомологов, включающий паралоги

Для поиска гомологов белка CLPX_ECOLI в протеомах бактерий из практикума 1 был использован следующий скрипт.

Для начала необходимые протеомы были записаны в файл db.fasta, который далее был использован для создания базы данных.

cd /P/y20/term4/Proteomes

cat ACIC1* ARTS2* BIFLO* CLAMS* CORDI* COREF* LEIXX* > ~/public_html/term4/pr4/db.fasta

cd ~/public_html/term4/pr4

Для непосредственно поиска гомологов была использована программа blastp, для которой в качестве поргового значения E-value было выбрано число 0.001. Перед этим была создана локальная база данных из протеомов выбранных бактерий. Выдача blastp доступна в файле CLPX.blast.

makeblastdb -dbtype prot -in db.fasta -out db > makeblastdb.log

blastp -query CLPX_ECOLI.fasta -db db -evalue 0.001 -out CLPX.blast > blastp.log

Далее из полученной выдачи с помощью того же скипта были выделены мнемоники найденных белков.

grep ">" CLPX.blast | awk -F '[| ]' '{print $4}' > ids.txt

С помощью программы seqret для каждой мнемоники была найдена последоваетльность из протеомов в файле db.fasta. Последовательности были записаны в новый файл proteins.fasta.

for word in $(cat ids.txt); do

seqret -filter db.fasta:$word >> proteins.fasta

done

Далее эти последоваетльности были выровнены программой muscle. Выравнивание записано в файл alignment.fasta.

muscle -in myprots.fasta -out myprotsalign.fasta

Список находок BLAST

Entry Bit-score E-Value
sp|Q8FN57|CLPX_COREF ATP-dependent Clp protease ATP-binding sub... 518 0.0
sp|Q6NFU7|CLPX_CORDI ATP-dependent Clp protease ATP-binding sub... 518 0.0
sp|A0LSV2|CLPX_ACIC1 ATP-dependent Clp protease ATP-binding sub... 517 0.0
sp|A0JXL2|CLPX_ARTS2 ATP-dependent Clp protease ATP-binding sub... 516 0.0
sp|Q6AFZ6|CLPX_LEIXX ATP-dependent Clp protease ATP-binding sub... 509 0.0
sp|B0RAS4|CLPX_CLAMS ATP-dependent Clp protease ATP-binding sub... 491 1e-173
sp|Q8G5R1|CLPX_BIFLO ATP-dependent Clp protease ATP-binding sub... 432 6e-150
tr|A0K1M3|A0K1M3_ARTS2 ATPase AAA-2 domain protein OS=Arthrobac... 54.3 4e-08
tr|Q8G871|Q8G871_BIFLO Protease OS=Bifidobacterium longum (stra... 51.2 5e-07
tr|Q8FMH5|Q8FMH5_COREF Putative endopeptidase Clp ATP-binding c... 47.0 8e-06
tr|Q6NFB1|Q6NFB1_CORDI ATP-dependent Clp protease ATP-binding s... 45.8 2e-05
tr|A0LW31|A0LW31_ACIC1 AAA ATPase, central domain protein OS=Ac... 45.4 2e-05
tr|A0LRB8|A0LRB8_ACIC1 ATP-dependent zinc metalloprotease FtsH ... 43.5 1e-04
sp|Q8G6B7|RUVB_BIFLO Holliday junction ATP-dependent DNA helica... 42.7 1e-04
sp|A0LR74|FTSH_ACIC1 ATP-dependent zinc metalloprotease FtsH OS... 43.1 1e-04
tr|Q6ACQ0|Q6ACQ0_LEIXX ATP-dependent zinc metalloprotease FtsH ... 43.1 1e-04
tr|Q8G3S2|Q8G3S2_BIFLO ATP-dependent zinc metalloprotease FtsH ... 43.1 1e-04
sp|A0JXB1|RUVB_ARTS2 Holliday junction ATP-dependent DNA helica... 42.4 2e-04
tr|A0JR82|A0JR82_ARTS2 ATP-dependent zinc metalloprotease FtsH ... 41.6 3e-04
tr|A0K236|A0K236_ARTS2 AAA ATPase, central domain protein OS=Ar... 41.6 4e-04
tr|B0RHW4|B0RHW4_CLAMS ATP-dependent zinc metalloprotease FtsH ... 41.2 5e-04
tr|Q6NF92|Q6NF92_CORDI ATP-dependent zinc metalloprotease FtsH ... 40.8 7e-04
tr|Q6NGK1|Q6NGK1_CORDI AAA domain-containing protein OS=Coryneb... 40.4 8e-04
tr|Q8FMG2|Q8FMG2_COREF ATP-dependent zinc metalloprotease FtsH ... 40.4 9e-04

Первые семь находок с очень малым E-value - это субъединицы АТФ-зависимых протеаз Clp. К ним же относится исследуемая последовательность. Всего таких находок девять. Также было найдено восемь АТФ-зависимых цинковых металлопротеаз. Все находки, кроме Q8G871_BIFLO, A0K1M3 ARTS2 и Q6NGK1_CORDI оказались АТФазами.

Реконструкция и визуализация

Ниже представлена визуализация дерева с выделенными ортологичными группами: ClpX (субъединицы АТФ-зависимых протеаз Clp) и FtsH (АТФ-зависимые цинковые металлопротеазы).

FstH и ClpX были найдены для каждого вида и их поддеревья повторяют филогению самих бактерий, за исключением того, что в группе FtsH есть нетривиальные ветви {BIFLO, ARTS2, LEIXX, CLAMS} и {ACIC1}, а в группе ClpX есть нетривиальная ветвь {BIFLO}. Выделение одного листа имеет смысл, так как дерево укорененное.

Три пары ортологов: CLPX_BIFLO и CLPX_CORDI, FTSH_ACIC1 и Q8FMG2_COREF, Q8FMH5_COREF и Q6NFB1_CORDI.

Три пары паралогов: CLPX_BIFLO и FTSH_ACIC1, AOLW31_ACIC1 и Q6NF9_CORDI, Q8FMH5_COREF и RUVB_ARTS2.