На главную
IV семестр

Занятие 1


Отобранные бактерии

НазваниеМнемоника
Bacillus anthracisBACAN
Clostridium tetaniCLOTE
Geobacillus kaustophilusGEOKA
Lactobacillus acidophilusLACAC
Listeria monocytogenesLISMO
Pediococcus pentosaceusPEDPA
Staphylococcus epidermidisSTAES
Streptococcus pneumoniaeSTRPN

Скобочная формула дерева

(CLOTE,((STRPN,(PEDPA,LACAC)),(STAES,(LISMO,(BACAN,GEOKA)))));

Изображение дерева


Ветви дерева

Дерево содержит пять нетривиальных ветвей:

1) {PEDPA, LACAC} против {STRPN, CLOTE, STAES, LISMO, GEOKD, BACAN}
2) {PEDPA, LACAC, STRPN} против {CLOTE, STAES, LISMO, GEOKD, BACAN}
3) {GEOKA, BACAN} против {PEDPA, LACAC, STRPN, CLOTE, STAES, LISMO}
4) {LISMO, GEOKA, BACAN} против {PEDPA, LACAC, STRPN, CLOTE, STAES}
5) {PEDPA, LACAC, STRPN, CLOTE} против {STAES, LISMO, GEOKA, BACAN}

Задание 2

Даже на столь маленьком дереве можно видеть разделение на таксоны.
Первым отделяется CLOTE, который относится к классу Clostridia, в то время, как все остальные относятся к классу Bacilli.
Следующая ветвь разделяет PEDPA, LACAC и STRPN из Lactobacillales и STAES, LISMO, GEOKD и BACAN из Bacillales.
LACAC, PEDPA относятся к Lactobacillaceae, в отличие от STRPN; а BACAN и GEOKA к Bacillaceae, в отличие от остальных бактерии из Bacillales.

Для реконструкции филогенетического дерева я выбрал фактор элонгации трансляции Ts (EFTS). Выравнивание создано программой muscle.

Полученные деревья:


Таблица весов для весовых алгоритмов:

    8       LACAC     STRPN     CLOTE     PEDPA     LISMO     STAES     GEOKA     BACAN
LACAC       0.000000  0.404440  0.950287  0.717237  0.773341  0.698287  0.781159  0.780316
STRPN       0.404440  0.000000  1.057382  0.796756  0.827391  0.779757  0.834630  0.843554
CLOTE       0.950287  1.057382  0.000000  0.762938  0.749289  0.706105  0.762676  0.769564
PEDPA       0.717237  0.796756  0.762938  0.000000  0.565087  0.551479  0.573652  0.631510
LISMO       0.773341  0.827391  0.749289  0.565087  0.000000  0.494975  0.416844  0.449536
STAES       0.698287  0.779757  0.706105  0.551479  0.494975  0.000000  0.459207  0.383449
GEOKA       0.781159  0.834630  0.762676  0.573652  0.416844  0.459207  0.000000  0.285521
BACAN       0.780316  0.843554  0.769564  0.631510  0.449536  0.383449  0.285521  0.000000
Полученная матрица не слишком близка к ультраметрической:
В некоторых случаях можно сказать, что она ультраметрична, но существуют и обратные случаи:
d1(LACAC, STRPN) ~= 0.40,
d2(LACAC, CLOTE) ~= 0.95,
d3(STRPN, CLOTE) ~= 1.05
(1.05-0.95)/1.05 ~= 10% - существенное отличие.
Аналогично для других троек, так для LACAC и CLOTE, вообще говоря, любой третий белок дает "неультраметричную" тройку.
Тем не менее, матрица достаточно аддитивна, например:
d(LACAC, STRPN) + d(CLOTE, PEDPA) ~= 1.17,
d(LACAC, CLOTE) + d(STRPN, PEDPA) ~= 1.75,
d(CLOTE, STRPN) + d(LACAC, PEDPA) ~= 1.77
Подобное "почти равенство" выполняется чаще, чем в случае с УМ.

Результаты

Результаты удручают. Во всех трех предсказанных деревьях нашлась только нетривиальная ветвь №3 (BACAN, GEOKA vs остальные). Помимо того, все деревья выделяют отдельно Bacillales (не всегда с правильной близостью разделов внутри группы)
Наилучший результат дал алгоритм Neighbor-Joining, при укоренении его дерева в ветвь, отделяющую CLOTE от всего остального, мы получаем практически правильное дерево (все ветви кроме 1 - "PEDPA, LACAC vs остальные" присутствуют).
UPGMA и ММЭ содержат по 2 нетривиальных ветви из 5 правильного дерева.