1. Составление списка гомологичных белков, включающих паралоги
Предварительно протеомы ранее отобранных мною бактерий были объеденены в отдельный файл для дальнейшего запуска BLAST. После чего были выполнены следующие команды:
makeblastdb -dbtype prot -in prots.fasta -out prots
blastp -query CLPX_ECOLI.fasta -db prots -evalue 0.001 -out output.blast
Далее приведены результаты выдачи программы:
Score E
Sequences producing significant alignments: (Bits) Value
sp|Q820F8|CLPX_STRAW ATP-dependent Clp protease ATP-binding sub... 535 0.0
sp|Q6NFU7|CLPX_CORDI ATP-dependent Clp protease ATP-binding sub... 518 0.0
sp|A0JXL2|CLPX_ARTS2 ATP-dependent Clp protease ATP-binding sub... 516 0.0
tr|Q47MU4|Q47MU4_THEFY ATP-dependent Clp protease ATP-binding s... 516 0.0
sp|Q6AFZ6|CLPX_LEIXX ATP-dependent Clp protease ATP-binding sub... 509 0.0
sp|B0RAS4|CLPX_CLAMS ATP-dependent Clp protease ATP-binding sub... 491 1e-173
sp|Q8G5R1|CLPX_BIFLO ATP-dependent Clp protease ATP-binding sub... 432 8e-150
tr|A0K1M3|A0K1M3_ARTS2 ATPase AAA-2 domain protein OS=Arthrobac... 54.3 5e-08
tr|Q8G871|Q8G871_BIFLO Protease OS=Bifidobacterium longum (stra... 51.2 6e-07
tr|Q6NFB1|Q6NFB1_CORDI ATP-dependent Clp protease ATP-binding s... 45.8 3e-05
tr|Q47MZ2|Q47MZ2_THEFY ATPase OS=Thermobifida fusca (strain YX)... 43.9 1e-04
sp|Q8G6B7|RUVB_BIFLO Holliday junction ATP-dependent DNA helica... 42.7 2e-04
tr|Q6ACQ0|Q6ACQ0_LEIXX ATP-dependent zinc metalloprotease FtsH ... 43.1 2e-04
tr|Q8G3S2|Q8G3S2_BIFLO ATP-dependent zinc metalloprotease FtsH ... 43.1 2e-04
sp|A0JXB1|RUVB_ARTS2 Holliday junction ATP-dependent DNA helica... 42.4 2e-04
tr|Q82QV8|Q82QV8_STRAW Putative AAA family ATPase OS=Streptomyc... 41.6 3e-04
tr|Q47KU4|Q47KU4_THEFY ATP-dependent zinc metalloprotease FtsH ... 42.0 4e-04
tr|A0JR82|A0JR82_ARTS2 ATP-dependent zinc metalloprotease FtsH ... 41.6 5e-04
tr|A0K236|A0K236_ARTS2 AAA ATPase, central domain protein OS=Ar... 41.6 5e-04
tr|Q82EE9|Q82EE9_STRAW ATP-dependent zinc metalloprotease FtsH ... 41.6 5e-04
tr|Q82EB8|Q82EB8_STRAW Putative ATP-dependent Clp protease OS=S... 41.6 6e-04
tr|B0RHW4|B0RHW4_CLAMS ATP-dependent zinc metalloprotease FtsH ... 41.2 7e-04
tr|Q6NF92|Q6NF92_CORDI ATP-dependent zinc metalloprotease FtsH ... 40.8 0.001
Видно, что полученные выравнивания имеют высокий Score и очень низкие значения e-value. Как и следовало ожидать, верхние 7 находок - АТФ-связывающие субъединицы Clp протеаз рассматриваемых мною бактерий. Далее в списке идут другие АТФ-зависимые белки, но e-value в их случае на много порядков ниже.
2. Реконструкция и визуализация
Дерево было реконструировано методом Neighbor joining в программе MEGA. Newick-формат доступен по
ссылке.
Полная реконструкция
Паралоги:
- RUVB_ARTS2 и CLPX_ARTS2
- Q8G871_BIFLO и RUVB_BIFLO
- Q6ACQ0_LEIXX и CLPX_LEIXX
Ортрологи:
- Q47KU4_THEFY и Q82EE9_STRAW
- Q6NFB1_CORDI и Q82EB8_STRAW
- CLPX_LEIXX и CLPX_CLAMS
Мы наблюдаем 2 крупные ортологичные группы: ClpX (АТФ-связывающие субъединицы Clp протеаз) и FtsH (АТФ-зависимые цинковые металлопротеазы), в каджой из которых присутствуют белки всех семи рассматриваемых бактерий. Но ни одна, ни другая клада не реконструируют филогению бактерий в полной мере. Так, в группе ClpX совпадают с ранее полученным деревом ветви (LEIXX, CLAMS), ((LEIXX, CLAMS), ARTS2), (STRAW, THEFY). У ортологичной группы FtsH похожая ситуация: сохраняются те же ветви, что и у ClpX.
Реконструкция со "схлопнутыми" ортологичными группами