Практикум 4
- Составление списка гомологичных белков, включающих паралоги
- Реконструкция и визуализация
- Реконструкция дерева
- Gamma distributed rates across sites: No
- Starting tree (distance algorithm used): BIONJ
- Tree Refinement: No Refinement
- Количество Bootstrap реплик: 100
- Поиск ортологов и паралогов
- Сравнение с филогенетическим деревом бактерий
◆ – можно заметить, что во всех случаях в ID содержится не мнемоника функции, а просто набор букв и цифр. Возможно, просто про данные белки известно не так много, и такой мнемоники просто нет. Все эти белки, кроме самого базального A0A0U1RJ22_NEIMA, аннотированы как металлопептидаза FtsH, использующая для катализа ион Zn2+. Этот базальный белок аннотирован как белок, участвующий в рекомбинации в ответ на остановку репликативной вилки.
В этой группе есть белки всех бактерий, кроме AORAE. Кусочек, содержащий белки ROSDO, AGRFC и RHIME совпал с референсным деревом бактерий, что согласуется с высокой поддержкой bootstrap. У остальных ветвей, кроме той, которая отделяет A0A0U1RJ22_NEIMA, поддержка существенно ниже. Возможно, этот базальный белок на самом деле не ортолог, и на самом деле отделился раньше, чем разделились соответствующие виды.
◆ – есть все белки, кроме белков бактерий NEIMA и POLAQ. Топология верная, что согласуется с высокой поддержкой ветвей.
◆ – есть все белки, включая CLPX ECOLI. Одна из ветвей (отделяющая белки ECOLI, PROMH, AORAE, THIDA) оказалась очень короткой и имеет поддержку всего 26, так чо можно сказать, что этот участок вообще не разрешился.
Оказалось, что Proteus mirabilis (PROMH), как и E. coli, принадлежит классу Gammaproteobacteria, и на реконструированном дереве видим, что белки этих двух бактерий от всех остальных отделились ветвью с высокой поддержкой.
Отдельно ветвь альфапротеобактерий реконструировалась верно, а про бетапротеобактерий такого сказать нельзя: белок бактерии NEIMA снова оказался базальным по отношению ко всем остальным белкам в этой группе, и это явно не случайно так получилось, потому что поддержка равна 86 данном случае. Либо эти два белка на самом деле не являются ортологичными по отношению к другим белкам в соответствующей группе, либо скорость эволющии этих белков Neisseria meningitidis по каким-то причинам увеличена.
Поиск белков, гомологичных белку CLPX ECOLI, проводился среди белков бактерий, рассматриваемых в предыдущих практикумах. Сначала нужно создать базу данных для BLAST:
makeblastdb -in proteomes.fasta -dbtype prot
Собственно поиск проводился с помощью алгоритма blastp, порог e-value равен 0.001.
blastp -query query.fasta -db db/proteomes.fasta -out out.txt -outfmt 7
-evalue 0.001 -max_target_seqs 100
дал 32 результата.
AC найденного белка e-value выравнивания
CLPX_PROMH 0.0
CLPX_THIDA 0.0
CLPX_AROAE 0.0
CLPX_POLAQ 0.0
CLPX_RHIME 0.0
CLPX_AGRFC 0.0
CLPX_ROSDO 0.0
CLPX_NEIMA 0.0
HSLU_PROMH 8.55e-22
HSLU_PROMH 6.02e-21
HSLU_ROSDO 8.85e-21
HSLU_ROSDO 1.03e-20
HSLU_AROAE 8.92e-21
HSLU_AROAE 5.16e-17
HSLU_RHIME 1.33e-20
HSLU_RHIME 9.04e-20
HSLU_AGRFC 2.35e-20
HSLU_AGRFC 3.62e-18
Q3SFW1_THIDA 1.75e-18
Q3SFW1_THIDA 2.51e-17
B4EV83_PROMH 1.37e-06
B4F2B3_PROMH 1.71e-05
RUVB_ROSDO 2.93e-05
Q92M98_RHIME 3.74e-05
Q7CT50_AGRFC 4.27e-05
Q3SJR4_THIDA 1.45e-04
A4SXL5_POLAQ 1.67e-04
RUVB_NEIMA 2.07e-04
Q3SJH1_THIDA 3.02e-04
Q16C81_ROSDO 8.08e-04
Q167Z2_ROSDO 8.19e-04
A0A0U1RJ22_NEIMA 0.001
Последовательности найденных белков были помещены в один fasta-файл (вот так). После я к ним добавила последовательность изначально данного белка.
Дерево было получено при помощи конвейера MAFFT → FastME c параметрами:
| Примеры ортологов | Примеры паралогов |
|---|---|
| RUVB NEIMA и RUVB ROSDO | A0A0U1RJ22 NEIMA и RUVB NEIMA |
| A0A0U1RJ22 NEIMA и A4SXL5 POLAQ | RUVB ROSDO и HSLU ROSDO |
| HSLU ROSDO и HSLU AGRFC | CLPX RHIME и HSLU RHIME |
Сравним с референсным филогенетическим деревом бактерий:
Данный в задании белок принадлежит Escherichia coli, которая, согласно NCBI Taxonomy Browser, принадлежит классу Gammaproteobacteria, который принадлежит Pseudomonadota. Взаимное расположение ветвей Alphaproteobacteria, Betaproteobacteria и Gammaproteobacteria, насколько я поняла, пока не до конца ясно.
Рассмотрим взаимное расположение белков внутри групп ортологичных белков (рис. 2):