Homologous proteins & visualisation
Список гомологов, включающий паралоги
Для поиска гомологов белка CLPX_ECOLI в протеомах бактерий из практикума 1 был использован следующий скрипт.
Для начала необходимые протеомы были записаны в файл db.fasta, который далее был использован для создания базы данных.
cd /P/y20/term4/Proteomes
cat ACIC1* ARTS2* BIFLO* CLAMS* CORDI* COREF* LEIXX* > ~/public_html/term4/pr4/db.fasta
cd ~/public_html/term4/pr4
Для непосредственно поиска гомологов была использована программа blastp, для которой в качестве поргового значения E-value было выбрано число 0.001. Перед этим была создана локальная база данных из протеомов выбранных бактерий. Выдача blastp доступна в файле CLPX.blast.
makeblastdb -dbtype prot -in db.fasta -out db > makeblastdb.log
blastp -query CLPX_ECOLI.fasta -db db -evalue 0.001 -out CLPX.blast > blastp.log
grep ">" CLPX.blast | awk -F '[| ]' '{print $4}' > ids.txt
С помощью программы seqret для каждой мнемоники была найдена последоваетльность из протеомов в файле db.fasta. Последовательности были записаны в новый файл proteins.fasta.
for word in $(cat ids.txt); do
seqret -filter db.fasta:$word >> proteins.fasta
done
Далее эти последоваетльности были выровнены программой muscle. Выравнивание записано в файл alignment.fasta.
muscle -in myprots.fasta -out myprotsalign.fasta
Список находок BLAST
Entry | Bit-score | E-Value |
---|---|---|
sp|Q8FN57|CLPX_COREF ATP-dependent Clp protease ATP-binding sub... | 518 | 0.0 |
sp|Q6NFU7|CLPX_CORDI ATP-dependent Clp protease ATP-binding sub... | 518 | 0.0 |
sp|A0LSV2|CLPX_ACIC1 ATP-dependent Clp protease ATP-binding sub... | 517 | 0.0 |
sp|A0JXL2|CLPX_ARTS2 ATP-dependent Clp protease ATP-binding sub... | 516 | 0.0 |
sp|Q6AFZ6|CLPX_LEIXX ATP-dependent Clp protease ATP-binding sub... | 509 | 0.0 |
sp|B0RAS4|CLPX_CLAMS ATP-dependent Clp protease ATP-binding sub... | 491 | 1e-173 |
sp|Q8G5R1|CLPX_BIFLO ATP-dependent Clp protease ATP-binding sub... | 432 | 6e-150 |
tr|A0K1M3|A0K1M3_ARTS2 ATPase AAA-2 domain protein OS=Arthrobac... | 54.3 | 4e-08 |
tr|Q8G871|Q8G871_BIFLO Protease OS=Bifidobacterium longum (stra... | 51.2 | 5e-07 |
tr|Q8FMH5|Q8FMH5_COREF Putative endopeptidase Clp ATP-binding c... | 47.0 | 8e-06 |
tr|Q6NFB1|Q6NFB1_CORDI ATP-dependent Clp protease ATP-binding s... | 45.8 | 2e-05 |
tr|A0LW31|A0LW31_ACIC1 AAA ATPase, central domain protein OS=Ac... | 45.4 | 2e-05 |
tr|A0LRB8|A0LRB8_ACIC1 ATP-dependent zinc metalloprotease FtsH ... | 43.5 | 1e-04 |
sp|Q8G6B7|RUVB_BIFLO Holliday junction ATP-dependent DNA helica... | 42.7 | 1e-04 |
sp|A0LR74|FTSH_ACIC1 ATP-dependent zinc metalloprotease FtsH OS... | 43.1 | 1e-04 |
tr|Q6ACQ0|Q6ACQ0_LEIXX ATP-dependent zinc metalloprotease FtsH ... | 43.1 | 1e-04 |
tr|Q8G3S2|Q8G3S2_BIFLO ATP-dependent zinc metalloprotease FtsH ... | 43.1 | 1e-04 |
sp|A0JXB1|RUVB_ARTS2 Holliday junction ATP-dependent DNA helica... | 42.4 | 2e-04 |
tr|A0JR82|A0JR82_ARTS2 ATP-dependent zinc metalloprotease FtsH ... | 41.6 | 3e-04 |
tr|A0K236|A0K236_ARTS2 AAA ATPase, central domain protein OS=Ar... | 41.6 | 4e-04 |
tr|B0RHW4|B0RHW4_CLAMS ATP-dependent zinc metalloprotease FtsH ... | 41.2 | 5e-04 |
tr|Q6NF92|Q6NF92_CORDI ATP-dependent zinc metalloprotease FtsH ... | 40.8 | 7e-04 |
tr|Q6NGK1|Q6NGK1_CORDI AAA domain-containing protein OS=Coryneb... | 40.4 | 8e-04 |
tr|Q8FMG2|Q8FMG2_COREF ATP-dependent zinc metalloprotease FtsH ... | 40.4 | 9e-04 |
Первые семь находок с очень малым E-value - это субъединицы АТФ-зависимых протеаз Clp. К ним же относится исследуемая последовательность. Всего таких находок девять. Также было найдено восемь АТФ-зависимых цинковых металлопротеаз. Все находки, кроме Q8G871_BIFLO, A0K1M3 ARTS2 и Q6NGK1_CORDI оказались АТФазами.
Реконструкция и визуализация
Ниже представлена визуализация дерева с выделенными ортологичными группами: ClpX (субъединицы АТФ-зависимых протеаз Clp) и FtsH (АТФ-зависимые цинковые металлопротеазы).
FstH и ClpX были найдены для каждого вида и их поддеревья повторяют филогению самих бактерий, за исключением того, что в группе FtsH есть нетривиальные ветви {BIFLO, ARTS2, LEIXX, CLAMS} и {ACIC1}, а в группе ClpX есть нетривиальная ветвь {BIFLO}. Выделение одного листа имеет смысл, так как дерево укорененное.
Три пары ортологов: CLPX_BIFLO и CLPX_CORDI, FTSH_ACIC1 и Q8FMG2_COREF, Q8FMH5_COREF и Q6NFB1_CORDI.
Три пары паралогов: CLPX_BIFLO и FTSH_ACIC1, AOLW31_ACIC1 и Q6NF9_CORDI, Q8FMH5_COREF и RUVB_ARTS2.