Дерево по нуклеотидным последовательностям. Паралоги



1. Построение дерева по нуклеотидным последовательностям


Последовательности 16S рибосомальной РНК каждой из бактерий из практикума были получены из файлов .frn (было выбрано по одной из копий гена) из базы полных геномов NCBI. Все они были записаны в общий файл rnas.fasta с соответствующими мнемониками для последовательности каждой бактерии. Затем полученный файл с выравниваниями был открыт в Jalview и было построено выравнивание алгоритмом Muscle с умолчательными настройками. На рис. 1 представлено полученое выраванивание. Выравнивание в формате .fasta: alignment.fa.
Рис. 1. Выравнивание последовательностей 16S-рРНК в Jalview (раскраска Nucleotide)
Полученное выравнивание было импортировано в MEGA и методом Neighbour-joinong было построено дерево, представленное на рис. 2.

Рис. 2. Построенное дерево (метод NJ)
Полученное дерево отличается от истинного взаимным расположением видов с мнемониками STAAR и GEOKA. Интересно отметить, что в случае построения дерева тем же методом, но по последовательностям белка, а не 16S-рРНК, получилось правильное дерево. Мне стало интересно, является ли это следствием того, что деревья, построенные по выравниваниям белковых последовательностей точнее отражают эволюционные взаимоотношения, чем деревья, построенные по выравниваниям нуклеотидных последовательностей и, в частности, 16S-рРНК. Поэтому я решила воспользоваться силами Google.

Ген 16S-рРНК присутствует во всех клетках; у бактерий в геноме может быть до 10 копий этого гена. Они часто используются для построения деревьев, т.к.: Таким образом, не совсем понятно, почему в этом случае дерево отличается от правильного. Более того, два других метода (минимальной эволюции и максимального правдоподобия) построили деревья с такой же топологией, как NJ (деревья не выкладываю). Такие результаты могут быть связаны с тем, что выравнивание нуклеотидных последовательностей менее достоверно, чем выравнивание белковых последовательностей, так как i) не учитывается, является ли замена нуклеотида синонимичной и ii) в выравниваниях аминокислотных последовательностей есть учет замены аминокислоты на аминокислоту со сходными свойствами и замены на аминокислоту с отличающимися свойствами, что делает выравнивание более точным; в выравниваниях нуклеотидных последовательностей такого, очевидно, нет.

Вывод: в общем, несмотря на приведенную цитату о возможности использования генов 16S-рРНК для построения деревьев, в моем случае этот способ сработал неидеально. Хотя, с другой стороны, строить дерево по последовательностям одной рРНК/одного белка — не самая лучшая идея.


2. Построение и анализ дерева, содержащего паралоги


Паралоги — гомологичные белки из одного организма. Ортологи — гомологичные белки из разных организмов или гомологичные белки, для которых разделение их общего предка на линии, ведущей к ним, произошло в результате видообразования. В данном задании предлагалось построить дерево гомологичных белку CLPX_BACSU белков моих бактерий. Затем, считая, что дерево построено верно, определить ортологов и паралогов, а также указать некоторые эволюционные события.

Сначала был создан файл с протеомами моих бактерий: proteomes.fasta, который был подан на вход blastp. Таким образом были найдены предполагаемые гомологи (порог e-value=0.001). В таблице 1 перечислены найденные гомологи.
Табл. 1. Найденные гомологи
Мнемоника Продукт Score E-value
CLPX_BACAN ATP-dependent Clp protease ATP-binding subunit ClpX 733 0.0
CLPX_GEOKA ATP-dependent Clp protease ATP-binding subunit ClpX 712 0.0
CLPX_STAAR ATP-dependent Clp protease ATP-binding subunit ClpX 607 0.0
CLPX_CLOTE ATP-dependent Clp protease ATP-binding subunit ClpX 596 0.0
CLPX_CLOBA ATP-dependent Clp protease ATP-binding subunit ClpX 593 0.0
CLPX_STRPN ATP-dependent Clp protease ATP-binding subunit ClpX 541 0.0
HSLU_GEOKA ATP-dependent protease ATPase subunit HslU 101 6e-24
HSLU_BACAN ATP-dependent protease ATPase subunit HslU 97.8 1e-22
HSLU_STAAR ATP-dependent protease ATPase subunit HslU 97.8 2e-22
Q5L436_GEOKA ATP-dependent Clp protease ATPase subunit 65.9 6e-12
Q81VV9_BACAN ATP-dependent Clp protease ATP-binding subunit ClpC 60.5 3e-10
A0A0H2USJ7_STRPN ATP-dependent Clp protease, ATP-binding subunit 59.3 7e-10
Q890L5_CLOTE Negative regulator of genetic competence mecB/clpC 57.4 3e-09
CLPL_STAAR ATP-dependent Clp protease ATP-binding subunit ClpL 55.1 2e-08
CLPC_STAAR ATP-dependent Clp protease ATP-binding subunit ClpC 53.9 4e-08
Q899V4_CLOTE Negative regulator of genetic competence mecB 52.4 1e-07
A0A0H2UNL3_STRPN Putative ATP-dependent Clp protease, ATP-binding subunit 47.0 5e-06
Q899H3_CLOTE ATP-dependent zinc metalloprotease FtsH 45.1 2e-05
FTSH_STRPN ATP-dependent zinc metalloprotease FtsH 45.1 2e-05
RUVB_CLOBA Holliday junction ATP-dependent DNA helicase RuvB 42.7 1e-04
Q891B9_CLOTE ATP-dependent zinc metalloprotease FtsH 42.7 1e-04
Y1421_STAAR Uncharacterized protein SAR1421 42.0 1e-04
Q5L3T1_GEOKA ATP-dependent zinc metalloprotease FtsH 42.0 2e-04
Q81VX5_BACAN ATP-dependent zinc metalloprotease FtsH 41.6 2e-04
Q898D1_CLOTE ATP-dependent zinc metallopeptidase 40.8 4e-04
CLPB_CLOTE Chaperone protein ClpB 40.8 5e-04

Jalview почему-то не отбросил нижние семь находок (выделены курсивом), хотя их e-value выше порогового (0.001). Поэтому при построении выравнивания они не учитывались. Последовательности 19 найденных белков были загружены в Jalview и выровнены (Muscle with defaults). На рис.3 представлено полученное выравнивание (.fasta: alignment2.fasta). Выравнивание всех 26 находок можно посмотреть здесь. По приведенному выше выравниванию в MEGA было построено дерево (метод Neighbour-joining). Оно изображено на рис. 4.

Рис. 3. Выравнивание последовательностей исходного белка и гомологов в Jalview (раскраска Clustalx)
Рис. 4. Построенное дерево (метод NJ)

Clp — эндопептидаза, катализирующая гидролиз белков в присутствии АТФ2. Состоит из нескольких субъединиц: ClpP/ClpQ (обладают протеазной активностью) и ClpX/ClpC/ClpE/и др. (связывают АТФ). Этот белковый комплекс найден в бактериях, а также в митохондриях и хлоропластах эукариот3.
HlsVU — АТФ-зависимая протеаза, присутствующая у многих бактерий. Состоит из субъединиц: HslU (АТФ-зависимый шаперон и активатор второй субъединицы) и HslV (обладает протеазной активностью)4.
FtsH — АТФ-зависимая металлопептидаза (кофактор — ион цинка)5.

Таким образом, некоторые группы ортологов, представленные на дереве: Все они кодируют определенную субъединицу, выполняющую одну и ту же роль в разных бактериях.

Принимая во внимание тот факт, что HslU и СlpX имеют схожее строение и функцию6, некоторые паралоги, представленные на дереве:
На рис. 5 отмечены все упомянутые группы гомологов, а также дупликации генов и разделение путей эволюции белков в результате видообразования.

Рис. 5. То же самое дерево + группы гомологов + эволюционные события

Ссылки:

[1] James W. Brown. Molecular phylogenetic analysis using ribosomal RNA (rRNA). NC State University. [PDF].
[2] Gottesman S., Clark W.P., Maurizi M.R. (1990). The ATP-dependent Clp protease of Escherichia coli. Sequence of clpA and identification of a Clp-specific substrate. J. Biol. Chem. 265: 7886–7893.
[3] Katayama-Fujimura Y., Gottesman S., Maurizi M.R. (1987). A multiple-component, ATP-dependent protease from Escherichia coli. The Journal of Biological Chemistry. 262 (10): 4477–85.
[4] Rohrwild et al. (1996). HslV-HslU: A novel ATP-dependent protease complex in Escherichia coli related to the eukaryotic proteasome. Proc Natl Acad Sci U S A.93(12):5808-13.
[5] P0AAI3 (FTSH_ECOLI) // UniProt. [URL].
[6] Chuang et al. (1993). Sequence analysis of four new heat-shock genes constituting the hslTS/ibpAB and hslVU operons in Escherichia coli. Gene.134(1):1-6.