Практикум 4
- Составление списка гомологичных белков, включающих паралоги
- Реконструкция и визуализация
- Реконструкция дерева
- Gamma distributed rates across sites: No
- Starting tree (distance algorithm used): BIONJ
- Tree Refinement: No Refinement
- Количество Bootstrap реплик: 100
- Поиск ортологов и паралогов
- Сравнение с филогенетическим деревом бактерий
◆ – можно заметить, что во всех случаях в ID содержится не мнемоника функции, а просто набор букв и цифр. Возможно, просто про данные белки известно не так много, и такой мнемоники просто нет. Все эти белки, кроме самого базального A0A0U1RJ22_NEIMA, аннотированы как металлопептидаза FtsH, использующая для катализа ион Zn2+. Этот базальный белок аннотирован как белок, участвующий в рекомбинации в ответ на остановку репликативной вилки.
В этой группе есть белки всех бактерий, кроме AORAE. Кусочек, содержащий белки ROSDO, AGRFC и RHIME совпал с референсным деревом бактерий, что согласуется с высокой поддержкой bootstrap. У остальных ветвей, кроме той, которая отделяет A0A0U1RJ22_NEIMA, поддержка существенно ниже. Возможно, этот базальный белок на самом деле не ортолог, и на самом деле отделился раньше, чем разделились соответствующие виды.
◆ – есть все белки, кроме белков бактерий NEIMA и POLAQ. Топология верная, что согласуется с высокой поддержкой ветвей.
◆ – есть все белки, включая CLPX ECOLI. Одна из ветвей (отделяющая белки ECOLI, PROMH, AORAE, THIDA) оказалась очень короткой и имеет поддержку всего 26, так чо можно сказать, что этот участок вообще не разрешился.
Оказалось, что Proteus mirabilis (PROMH), как и E. coli, принадлежит классу Gammaproteobacteria, и на реконструированном дереве видим, что белки этих двух бактерий от всех остальных отделились ветвью с высокой поддержкой.
Отдельно ветвь альфапротеобактерий реконструировалась верно, а про бетапротеобактерий такого сказать нельзя: белок бактерии NEIMA снова оказался базальным по отношению ко всем остальным белкам в этой группе, и это явно не случайно так получилось, потому что поддержка равна 86 данном случае. Либо эти два белка на самом деле не являются ортологичными по отношению к другим белкам в соответствующей группе, либо скорость эволющии этих белков Neisseria meningitidis по каким-то причинам увеличена.
Поиск белков, гомологичных белку CLPX ECOLI, проводился среди белков бактерий, рассматриваемых в предыдущих практикумах. Сначала нужно создать базу данных для BLAST:
makeblastdb -in proteomes.fasta -dbtype prot
Собственно поиск проводился с помощью алгоритма blastp, порог e-value равен 0.001.
blastp -query query.fasta -db db/proteomes.fasta -out out.txt -outfmt 7 -evalue 0.001 -max_target_seqs 100
дал 32 результата.
AC найденного белка e-value выравнивания CLPX_PROMH 0.0 CLPX_THIDA 0.0 CLPX_AROAE 0.0 CLPX_POLAQ 0.0 CLPX_RHIME 0.0 CLPX_AGRFC 0.0 CLPX_ROSDO 0.0 CLPX_NEIMA 0.0 HSLU_PROMH 8.55e-22 HSLU_PROMH 6.02e-21 HSLU_ROSDO 8.85e-21 HSLU_ROSDO 1.03e-20 HSLU_AROAE 8.92e-21 HSLU_AROAE 5.16e-17 HSLU_RHIME 1.33e-20 HSLU_RHIME 9.04e-20 HSLU_AGRFC 2.35e-20 HSLU_AGRFC 3.62e-18 Q3SFW1_THIDA 1.75e-18 Q3SFW1_THIDA 2.51e-17 B4EV83_PROMH 1.37e-06 B4F2B3_PROMH 1.71e-05 RUVB_ROSDO 2.93e-05 Q92M98_RHIME 3.74e-05 Q7CT50_AGRFC 4.27e-05 Q3SJR4_THIDA 1.45e-04 A4SXL5_POLAQ 1.67e-04 RUVB_NEIMA 2.07e-04 Q3SJH1_THIDA 3.02e-04 Q16C81_ROSDO 8.08e-04 Q167Z2_ROSDO 8.19e-04 A0A0U1RJ22_NEIMA 0.001
Последовательности найденных белков были помещены в один fasta-файл (вот так). После я к ним добавила последовательность изначально данного белка.
Дерево было получено при помощи конвейера MAFFT → FastME c параметрами:
Примеры ортологов | Примеры паралогов |
---|---|
RUVB NEIMA и RUVB ROSDO | A0A0U1RJ22 NEIMA и RUVB NEIMA |
A0A0U1RJ22 NEIMA и A4SXL5 POLAQ | RUVB ROSDO и HSLU ROSDO |
HSLU ROSDO и HSLU AGRFC | CLPX RHIME и HSLU RHIME |
Сравним с референсным филогенетическим деревом бактерий:
Данный в задании белок принадлежит Escherichia coli, которая, согласно NCBI Taxonomy Browser, принадлежит классу Gammaproteobacteria, который принадлежит Pseudomonadota. Взаимное расположение ветвей Alphaproteobacteria, Betaproteobacteria и Gammaproteobacteria, насколько я поняла, пока не до конца ясно.
Рассмотрим взаимное расположение белков внутри групп ортологичных белков (рис. 2):