Поиск ортологов и паралогов


Составление списка гомологичных белков, включающих паралоги

Для поиска гомологов белка CLPX_ECOLI в заданных организмах была создана локальная база данных, содержащая иx протеомы. Эта база данных была подана на вход программе blastp с порогом на e-value 0.001, далее из выдачи программы были выбраны идентификаторы белков, и соответствующие последовательности собраны из базы данных в новый файл с помощью seqret. Все действия от создания базы данных до выравнивания найденных последовательностей выполняются следующим скриптом:

cat *.fasta > proteomes.fasta
makeblastdb -dbtype prot -in proteomes.fasta -out proteomes
blastp -query clpx_ecoli.fasta -db proteomes -evalue 0.001 -out clpx.blast
grep '|' clpx.blast | grep -v '>'| grep -v 'Query'| awk '{print $1}' | awk -F '|' '{print $3}' > names.txt
while read line; do echo 'proteomes.fasta:'$line; done < names.txt > myprots.list
seqret @myprots.list myprots.fasta
muscle -in myprots.fasta -out myprotsalign.fasta

В результате работы blastp был получен следующий результат, содержащий приведенный ниже список белков:

SequenceScoreE-value
sp|Q820F8|CLPX_STRAW ATP-dependent Clp protease ATP-binding sub... 5350.0
sp|A1TCB3|CLPX_MYCVP ATP-dependent Clp protease ATP-binding sub...5230.0
sp|P9WPB9|CLPX_MYCTU ATP-dependent Clp protease ATP-binding sub...5190.0
sp|Q9CBY6|CLPX_MYCLE ATP-dependent Clp protease ATP-binding sub...5190.0
sp|Q6NFU7|CLPX_CORDI ATP-dependent Clp protease ATP-binding sub...5180.0
sp|Q6AFZ6|CLPX_LEIXX ATP-dependent Clp protease ATP-binding sub...5091e-180
sp|B0RAS4|CLPX_CLAMS ATP-dependent Clp protease ATP-binding sub...4912e-173
sp|Q8G5R1|CLPX_BIFLO ATP-dependent Clp protease ATP-binding sub...4329e-150
tr|Q8G871|Q8G871_BIFLO Protease OS=Bifidobacterium longum (stra...51.27e-07
tr|Q6NFB1|Q6NFB1_CORDI ATP-dependent Clp protease ATP-binding s...45.83e-05
sp|Q8G6B7|RUVB_BIFLO Holliday junction ATP-dependent DNA helica...42.72e-04
tr|Q6ACQ0|Q6ACQ0_LEIXX ATP-dependent zinc metalloprotease FtsH ...43.12e-04
tr|Q8G3S2|Q8G3S2_BIFLO ATP-dependent zinc metalloprotease FtsH ...43.12e-04
tr|A1TG29|A1TG29_MYCVP ATPase AAA-2 domain protein OS=Mycolicib...43.12e-04
tr|Q82QV8|Q82QV8_STRAW Putative AAA family ATPase OS=Streptomyc...41.64e-04
tr|Q82EE9|Q82EE9_STRAW ATP-dependent zinc metalloprotease FtsH ...41.66e-04
tr|A1TG43|A1TG43_MYCVP ATP-dependent zinc metalloprotease FtsH ...41.66e-04
tr|Q82EB8|Q82EB8_STRAW Putative ATP-dependent Clp protease OS=S...41.67e-04
sp|P9WQN3|FTSH_MYCTU ATP-dependent zinc metalloprotease FtsH OS...41.27e-04
tr|B0RHW4|B0RHW4_CLAMS ATP-dependent zinc metalloprotease FtsH ...41.28e-04

Уже из этих результатов видно, что в первую очередь были найдены гомологи с такой же функцией - АТФ-связывающие субъединицы АТФ-зависимой протеазы Clp всех рассматриваемых организмов. У этих находок высокие значения Score и ничтожно малый E-value. Далее идут белки с другими функциями, значения Score для которых уже на порядок ниже. Самая многочисленная группа среди них - АТФ-зависимые цинк-металлопротеазы.


Реконструкция и визуализация

Реконструкция филогении была произведена с помощью программы MEGA с алгоритмом Maximal Likehood. Было получено следующее дерево, визуализация которого представлена ниже.


Полная реконструкция
Реконструкция с объединенными ортологичными группами

Из найденных белков паралогами являются, к примеру, CLPX_MUCTU и FTSH_MUCTU, CLPX_LEIXX и Q6ACQ0_LEIXX, CLPX_CLAMS и B0RHW4_CLAMS. Ортологами являются CLPX_BIFLO и CLPX_CORDI, A1TG43_MYCVP и FTSH_MUCTU, Q6ACQ0_LEIXX и B0RHW4_CLAMS. Можно выделить две большие группы ортологов - АТФ-связывающие субъединицы Clp протеаз (ClpX) и АТФ-зависимые цинковые металлопротеазы (FtsH). Для первой группы можно отметить, что в неё вошли белки всех рассматриваемых организмов, но филогения белков не в точности соответствует филогении бактерий. Сохраняются ветви, выделяющие LEIXX и CLAMS, а также MYCTU, MYCLE и MYCVP. Во второй группе присутствуют только 6 из 8 организмов, но филогения сохраняется: выделяются ветви CLAMS, LEIXX и BIFLO; MYCVP и MYCTU и ветвь, выделяющая отдельно STRAW.