Главная страница > Второй семестр > Филогенетические деревья 

Филогенетические деревья, реконструированные разными способами


    Реконструкция филогенетических деревьев проводилась по данным эталонного выравнивания сахароизомеризующих доменов (SIS, код доступа PF01380), взятого из базы данных Pfam (рис. 1). Были рассмотрены фрагменты пяти последовательностей глюкозамин — фруктоза-6-фосфатаминотрансферазы [изомеризующей], соответствующие данному домену:

    Приведенные выше белки являются ортологами, так как выполняют одинаковую функцию. Это позволяет рассматривать деревья, реконструированные для фрагментов последовательностей, как филогенетические деревья организмов, которым эти последовательности принадлежат (см. ниже).



                                                                                                                                                                               
                                                        1 0                 2 0                 3 0                 4 0                 5 0                 6 0            
    G F A 1 _ S C H P O     3 7 7   :   I I R K S R R L I F V A C G T S Y H S C V A V R P L F E E L T N I P V V V E L A S D F V D R C P S V F R D D T F I F V S   :   4 3 6
    G L M S _ H A E I N     2 8 8   :   I L E K V E H I Q I V A C G T S Y N A G M V A R Y W F E S L A G V S C D V E I A S E F R Y R K F V T R P N S L L I T L S   :   3 4 7
    G L M S _ E C O L I     2 8 8   :   L L S K V E H I Q I L A C G T S Y N S G M V S R Y W F E S L A G I P C D V E I A S E F R Y R K S A V R R N S L M I T L S   :   3 4 7
    G F A 1 _ C A N A L     3 9 1   :   T I R R C R R I I M I A C G T S Y H S C L A T R S I F E E L T E I P V S V E L A S D F L D R R S P V F R D D T C V F V S   :   4 5 0
    G L M S _ B A C S U     2 8 5   :   A V A E A D R I Y I I G C G T S Y H A G L V G K Q Y I E M W A N V P V E V H V A S E F S Y N M P L L S K K P L F I F L S   :   3 4 4
                                                                                                                                                                         
                                                                                                                                                                         
                                                        7 0                 8 0                 9 0               1 0 0               1 1 0               1 2 0            
    G F A 1 _ S C H P O     4 3 7   :   Q S G E T A D S L L A L Q Y T L E N G A L - A I G V V N C V G S S I S R K T H C G V H I N A G P E I C V A S T K A Y T S   :   4 9 5
    G L M S _ H A E I N     3 4 8   :   Q S G E T A D T L A A L R L A K E K G Y M A A L T I C N V A G S S L V R E S D L A F M T R A G V E V G V A S T K A F T T   :   4 0 7
    G L M S _ E C O L I     3 4 8   :   Q S G E T A D T L A G L R L S K E L G Y L G S L A I C N V P G S S L V R E S D L A L M T N A G T E I G V A S T K A F T T   :   4 0 7
    G F A 1 _ C A N A L     4 5 1   :   Q S G E T A D S I L A L Q Y C L E R G A L - T V G I V N S V G S S M S R Q T H C G V H I N A G P E I G V A S T K A Y T S   :   5 0 9
    G L M S _ B A C S U     3 4 5   :   Q S G E T A D S R A V L V Q V K A L G H K - A L T I T N V P G S T L S R E A D Y T L L L H A G P E I A V A S T K A Y T A   :   4 0 3
                                                                                                                                                                         
                                                                             
                                                      1 3 0                    
    G F A 1 _ S C H P O     4 9 6   :   Q Y V A L V L M A L Y L S R   :   5 0 9
    G L M S _ H A E I N     4 0 8   :   Q L A A L L M L V T A L G K   :   4 2 1
    G L M S _ E C O L I     4 0 8   :   Q L T V L L M L V A K L S R   :   4 2 1
    G F A 1 _ C A N A L     5 1 0   :   Q Y I A L V M F A L S L S N   :   5 2 3
    G L M S _ B A C S U     4 0 4   :   Q I A V L A V L A S V A A D   :   4 1 7
                                                                             

    Рис. 1. Эталонное выравнивание фрагментов последовательностей GFA1_SCHPO, GLMS_HAEIN, GLMS_ECOLI, GFA1_CANAL и GLMS_BACSU, соответствующих сахароизомеризующему домену.




    Построение дерева по алгоритму UPGMA

    Построение дерева проводилось по данным матрицы попарных совпадений последовательностей эталонного выравнивания. На основании этой матрицы была создана матрица эволюционных расстояний, элементы которой Di, j вычислялись по формуле:
        Di, j = 1 - Pi, j,
где Pi, j — элемент матрицы попарных совпадений (см. книгу UPGMA.xls, лист distances).
    При построении дерева использовался алгоритм UPGMA. Каждая итерация алгоритма включает следующие шаги:

    Описанный выше алгоритм реализован с помощью электронной таблицы Excel (см. книгу UPGMA.xls, лист UPGMA). Правильная скобочная структура полученного дерева:

((GFA1_SCHPO:0.1250,GFA1_CANAL:0.1250):0.1763,((GLMS_HAEIN:0.1150,GLMS_ECOLI:0.1150):0.1788,GLMS_BACSU:0.2938):0.0075);

    Дерево было визуализировано с помощью программ drawtree и drawgram. Программа drawtree построила неукорененное дерево (рис. 2А), а программа drawgram — укорененное (рис. 2Б). Наиболее информативным является укорененное дерево, так как правильная скобочная формула, полученная с помощью алгоритма UPGMA, содержит информацию о корне (при построении неукорененного дерева эта информация теряется).
    По результатам построения дерева можно реконструировать сценарий эволюции. От гипотетической предковой последовательности сахароизомеризующего домена произошли предковые последовательности дрожжевых и бактериальных доменов. От предковой последовательности бактериальных доменов произошла предковая последовательность сахароизомеризующих доменов Haemophilus influenzae и Escherichia coli и последовательность сахароизомеризующего домена Bacillus subtilis. В свою очередь предковая последовательность дрожжевых доменов дала начало последовательностям сахароизомеризующих доменов Schizosaccharomyces pombe и Candida albicans, а предковая последовательность доменов Haemophilus influenzae и Escherichia coli — последовательностям Haemophilus influenzae и Escherichia coli.
    Так как все сахароизомеризующие домены входят в состав ортологичных последовательностей белков, реконструированные деревья можно рассматривать как филогенетические деревья соответствующих организмов (в противном случае эволюционное расстояние между паралогичными последовательностями двух близких организмов А и Б может превышать расстояние между ортологичными последовательностями организма А и более отдаленного от него организма В). Полученные результаты в целом согласуются с систематическим положением организмов. Алгоритм UPGMA позволил правильно разделить их на прокариот и эукариот. В составе прокариот были правильно выделены типы Firmicutes (Bacillus subtilis) и Proteobacteria (Haemophilus influenzae и Escherichia coli). Однако, в отличие от топологии дерева, длины ветвей вызывают сомнения. Если гипотеза молекулярных часов справедлива, и скорость накопления мутаций в различных систематических группах совпадает, то расстояние от точки расхождения организмов (узла дерева) до листьев дерева должно приблизительно соответствовать рангу таксона, на уровне которого эти организмы расходятся. Но, по данным NCBI Taxonomy, Schizosaccharomyces pombe и Candida albicans расходятся на уровне класса (принадледат к типу Ascomycota), а Haemophilus influenzae и Escherichia coli — на уровне порядка (принадлежат к классу Gammaproteobacteria). Тем не менее высоты соответствующих кластеров примерно равны (0.1250 и 0.1150). Кроме того, по результатам реконструкции филогенетического дерева, Bacillus subtilis (тип Firmicutes) отдален от представителей типа Proteobacteria приблизительно настолько, насколько и от эукариотических организмов (0.5876 и 0.6026), что также вызывает сомнения.
    Расхождения с устоявшимися представлениями о систематике живых организмов можно объяснить двумя причинами:




    Рис. 2 (А, Б). Визуализация деревьев, построенных по алгоритму UPGMA для фрагментов последовательостей GFA1_SCHPO, GLMS_HAEIN, GLMS_ECOLI, GFA1_CANAL и GLMS_BACSU, соответствующих сахароизомеризующему домену. Синими цифрами показаны длины ветвей. А. Неукорененное дерево, полученное с помощью программы drawtree. Б. Укорененное дерево, полученное с помощью программы drawgram.




    Построение дерева по методу ближайших соседей

    Построение дерева по методу ближайших соседей (neighbor-joining) было проведено с помощью программы ClustalW. В качестве исходных данных использовались аминокислотные последовательности сахароизомеризующих доменов. Правильная скобочная структура полученного дерева приведена ниже:

((GFA1_SCHPO:0.12155,GFA1_CANAL:0.12657):0.20207,(GLMS_HAEIN:0.12604,GLMS_ECOLI:0.09784):0.14652,GLMS_BACSU:0.28665);

    На рис. 3 (А, Б) представлены два варианта визуализации дерева. Неукорененное дерево, полученное с помощью программы drawtree, представлено на рис. 3А. Укорененное дерево, полученное с помощью программы drawgram, представлено на рис. 3Б. Так как правильная скобочная структура, реконструированная по методу ближайших соседей, не содержит информации о корне, наиболее верным является неукорененное дерево. Положение корня в укорененном дереве выбрано случайным образом и не несет осмысленной информации.
    Топология деревьев, реконструированных различными методами, совпадает. Следовательно, совпадают и сценарии эволюции. Устойчивость результата подтверждает корректность применения обоих методов.
    Как показывает дерево, реконструированное по методу ближайших соседей, скорость накопления мутаций в различных систематических группах различна. Например, последовательность сахароизомеризующего домена Haemophilus influenzae удалена от точки расхождения с последовательностью Escherichia coli на 0.1260, а последовательность Escherichia coli — на 0.0978 (расположение корня дерева между двумя близкородственными организмами представляется маловероятным). Таким образом, в данном случае гипотеза молекулярных часов применима с существенными ограничениями, и дерево, реконструированное по методу ближайших соседей, является более надежным.
    Неукорененное дерево (см. рис. 3А) следует рассматривать как множество возможных укоренений. Наиболее вероятным является укоренение на отрезке между про- и эукариотическими организмами (как соответствующее устоявшимся представлениям об эволюции и систематике живых организмов). В этом случае можно оценить скорость накопления мутаций в последовательностях сахароизомеризующих доменов различных организмов. Расстояния от точки расхождения дрожжевых организмов до листьев Schizosaccharomyces pombe и Candida albicans приблизительно равны (0.1266 и 0.1220). Близкие скорости возникновения мутаций в последовательностях этих организмов могут быть обусловлены сходством занимаемых экологических ниш. Расстояния от точки расхождения Firmicutes и Proteobacteria до листьев Haemophilus influenzae, Escherichia coli и Bacillus subtilis соответственно равны 0.2725, 0.2443 и 0.2867. Следовательно, последовательность домена Escherichia coli эволюционирут медленнее последовательностей доменов двух других прокариотических организмов. Такие различия могут быть обусловлены ошибками, возникающими в результате малого объема выборки. Возможно также, что среда обитания Escherichia coli и других представителей порядка Enterobacteriales является более стабильной, чем среды обитания Haemophilus influenzae (порядок Pasteurellales) и Bacillus subtilis (порядок Bacillales), или системы репарации повреждений ДНК у Enterobacteriales развиты лучше.




    Рис. 3 (А, Б). Визуализация деревьев, построенных по методу ближайших соседей для фрагментов последовательостей GFA1_SCHPO, GLMS_HAEIN, GLMS_ECOLI, GFA1_CANAL и GLMS_BACSU, соответствующих сахароизомеризующему домену. Синими цифрами показаны длины ветвей. А. Неукорененное дерево, полученное с помощью программы drawtree. Б. Укорененное дерево, полученное с помощью программы drawgram.



© Куравский Михаил Львович, 2006