Филогенетические деревья. Занятие 2.


Задания:

  1. Таксономия
  2. Выравнивание
  3. Диагностические позиции
  4. Реконструкция деревьев в JalView
  5. Maximum Parsimony
  6. TreeTop

1. Таксономия на NCBI


Напоминаю таблицу отобраных бактерий и дерево (отмечены таксоны и соответствующие элементы деревьев):

НазваниеМнемоникаРодословная согласно NCBI (Lineage), после общего для всех:
root; cellular organisms; Bacteria; Firmicutes; Bacilli;
(в скобках указаны соответствующие таксону ветви на дереве ниже)
Bacillus anthracisBACANBacillales (13); Bacillaceae (10); Bacillus (9); Bacillus cereus group (1)
Bacillus subtilisBACSU Bacillales (13); Bacillaceae (10); Bacillus (9); Bacillus subtilis group (2)
Geobacillus kaustophilusGEOKABacillales (13); Bacillaceae (10); Geobacillus (3)
Listeria monocytogenesLISMOBacillales (13); Listeriaceae (4); Listeria (4)
Staphylococcus aureusSTAA1Bacillales (13); Staphylococcaceae (5); Staphylococcus (5)
Lactobacillus acidophilusLACAC Lactobacillales (14); Lactobacillaceae (6); Lactobacillus (6)
Streptococcus pyogenesSTRP1Lactobacillales (14); Streptococcaceae (12); Streptococcus (12)
Streptococcus pneumoniaeSTRPNLactobacillales (14); Streptococcaceae (12); Streptococcus (12)
Слева: визуализация дерева в цвете: Справа: визуализация дерева с пронумерованными ветвями. Представленным таксонам, на уровне которых нет разветвлений в данном дереве, соответствуют листья, которые пронумерованы по тому же принципу, что и ветви.

2. Выравнивание белков


Выбранный белок: шаперонин с ID HLSO.

Пример запроса к seqret:
seqret sw:hslo_bacan hslo_bacan.fasta

Напоминание, как запустить скрипт script.sh с последовательностью команд в терминале:
chmod +x script.sh
./script.sh


Объединенный и измененный файл с последовательностями:
hslo.fasta

Выравнивание командой:
muscle -in hslo.fasta -out hslo.afa

Результат:
hslo.afa

Результат в JalView (с использованием полезного расположения выравнивания View -> Wrap):



Проект JalView с этим и следующим заданием:
hslo.jar

3. Диагностические позиции выравнивания


Диагностические позиции выравнивания - это позиции, по которым можно судить о принадлежности организма к данному таксону.
Соответствественно, в этих позициях у всех представителей данного таксона должна быть одинаковая буква, отличная от представителей остальных, альтернативных таксонов.
Примеры диагностических позиций в моем выравнивании:

4. Реконструкция деревьев


Алгоритм UPGMA дал укорененные деревья, но неправильно, Nieghbor Joining (NJ) - неукорененное (впоследствии оказался случайно укорененным). С помощью программы retree пакета PHYLIP я переукоренила неправильные деревья (метод переукоренеия поддеревьев!).

Результаты работы программ, картинкии в последовательности вид JalView; вид MEGA; вид MEGA переукоренное:

UPGMA Id
Ультраметрическое дерево, предумсотрены молекулярные часы:

Newick format: ((STRPN,STRP1),((BACAN,(((GEOKA,BACSU),STAA1),LISMO)),LACAC));



Листья, расположение которых отличается от исходного: BACAN, STAA1, LISMO

В терминах нетривиальных ветвей: ветви
(GEOKA,BACSU)vs(LACAC,STRPN,STRP1,BACAN,STAA1,LISMO) и
(LACAC,STRPN,STRP1)vs(BACAN,GEOKA,BACSU,STAA1,LISMO)
выделены правильно. Ветви
(GEOKA,BACSU,STAA1)vs(LACAC,STRPN,STRP1,BACAN,LISMO) и
(GEOKA,BACSU,STAA1,LISMO)vs(LACAC,STRPN,STRP1,BACAN)
выделены неравильно.

UPGMA BLOSUM62

Newick format: ((STRPN,STRP1),((BACAN,(((GEOKA,BACSU),STAA1),LISMO)),LACAC));



Листья, расположение которых отличается от исходного: BACAN, STAA1, LISMO

В терминах нетривиальных ветвей: ветви
(GEOKA,BACSU)vs(LACAC,STRPN,STRP1,BACAN,STAA1,LISMO) и
(LACAC,STRPN,STRP1)vs(BACAN,GEOKA,BACSU,STAA1,LISMO)
выделены правильно. Ветви
(GEOKA,BACSU,STAA1)vs(LACAC,STRPN,STRP1,BACAN,LISMO) и
(GEOKA,BACSU,STAA1,LISMO)vs(LACAC,STRPN,STRP1,BACAN)
выделены неравильно.

Neighbor Joining Id
Неультраметрическое дерево, не предусмотрены молекулярные часы:

Newick format: ((GEOKA,(BACSU,(STAA1,(LISMO,(LACAC,(STRPN,STRP1)))))),BACAN);



Листья, расположение которых отличается от исходного: BACAN, STAA1, LISMO

В терминах нетривиальных ветвей: ветвь
(LACAC,STRPN,STRP1)vs(BACAN,GEOKA,BACSU,STAA1,LISMO)
выделена правильно. Ветви
(LACAC,STRPN,STRP1,BACAN)vs(BACAN,GEOKA,BACSU,STAA1,LISMO)
(LISMO,BACSU,STAA1)vs(LACAC,STRPN,STRP1,BACAN,GEOKA) и
(STAA1,LISMO)vs(GEOKA,BACSU,LACAC,STRPN,STRP1,BACAN)
выделены неравильно.


Neighbor BLOSUM62

Newick format: ((GEOKA,(BACSU,(STAA1,(LISMO,(LACAC,(STRPN,STRP1)))))),BACAN);



Листья, расположение которых отличается от исходного: BACAN, STAA1, LISMO

В терминах нетривиальных ветвей: ветви
(GEOKA,BACSU)vs(LACAC,STRPN,STRP1,BACAN,STAA1,LISMO) и
(LACAC,STRPN,STRP1)vs(BACAN,GEOKA,BACSU,STAA1,LISMO)
выделены правильно. Ветви
(GEOKA,BACSU,STAA1)vs(LACAC,STRPN,STRP1,BACAN,LISMO) и
(GEOKA,BACSU,STAA1,BACAN)vs(LACAC,STRPN,STRP1,LISMO)
выделены неравильно.

Пояснение. Для описания различий построенного дерева от реальной таксономи я специально выбрала листья, рассматривая их как поддеревья, присоединенные к данной нетривиальной ветви.
Например, BACAN во всех случаях был присоединен не так глубоко в поддереве Bacillales, как в дереве таксономии.
В случае UPGMA это означает, что по белку-шаперонину Bacillus anthracis почему-то ближе к Lactobacillales, чем остальные представители Bacillales (точнее, далек от Lactobacillales, как и от Bacillales).
Для случая NJ нет ветви, объединяющей BACAN и Lactobacillales, но и нет ветви, объединяющей обоих Bacillus.

Neighbor Joining % Identity расположил LISMO и STAA1 глубже в поддереве Bacillales, чем они есть на самом деле.

5. Maximum Parsimony - наибольшая экономия, символьно-ориентированный метод.


Алгоритм максимальной экономии в MEGA построил такое неукорененное дерево:


При попытке укоренить его в заданную ветвь средствами MEGA получилось вот что:




Переукоренение с помощью retree пакета PHYLIP,
укоренение в ветвь (LACAC,STRP1,STRPN)vs(LISMO,BACAN,GEOKA,BACSU,STAA1):



Отличия от правильного дерева есть, почти такие, как в случае программм NJ и UPGMA. Bacillus на этот раз разделяются только Geobacillus kaustophilus, что более правдоподобно. Staphylococcaceae по-прежнему ближе ко всем Bacillaceae, чем Listeriaceae.


Общий вывод. Восстановление филогении по белку-шаперонину HLSO не отражает реальной таксономии при использовании доступных алгоритмов MP, NJ и UPGMA.

6. TreeTop


Адрес сервиса: http://www.genebee.msu.ru/services/phtree_reduced.html
Интерфейс сервиса:

На вход запрашивает выравнивание, но не в формате fasta. Пример формата выравнивания - здесь же, на странице.

Результат с параметрами по умолчанию (без бутстрепа, выходное дерево в формате PHYLIP, матрица BLOSUM62, учет только гомологичных участков выравнивания, алгоритмы и кластерный, и топологический):


PHYLOGENETIC TREE

CLUSTER ALGORITHM

0.538685 _____________________________________________________________________ STRP1 | |___________________________ STRPN |____________________________________________________________________ LACAC |_______________________________________________________________ LISMO | |__________________________________________ STAA1 | |_______________________________________ BACSU | |_________________________________ GEOKA |____________________________________________ BACAN * The phylogenetic tree in Phylip format ((STRP1:0.213000,STRPN:0.213000):0.325685,(LACAC:0.495293,((LISMO:0.325846,(STAA1:0.304137,(BACSU:0.256374,GEOKA:0.256374):0.047763):0.021708):0.018953,BACAN:0.344799):0.150494):0.043391);

TOPOLOGICAL ALGORITHM

_______________________________________________ GEOKA | | | || |___________________________ BACSU | | | ||____________________________ STAA1 | | | |________________________________ BACAN | | |________________________________ LISMO | |_______________________________________ LACAC | STRPN | STRP1 * The phylogenetic tree in Phylip format (((((((GEOKA:0.046229,BACSU:0.204808):0.031303,STAA1:0.210120):0.009451,BACAN:0.239592):0.016229,LISMO:0.244173):0.061712,LACAC:0.289526):0.186829,STRPN:0.001000):0.000500,STRP1:0.000500);

Distance Matrix

           1     2     3     4     5     6     7     8     
 1 STRP1  0.000 0.213 0.554 0.518 0.524 0.516 0.531 0.551
 2 STRPN  0.213 0.000 0.554 0.527 0.518 0.509 0.551 0.548
 3 LACAC  0.554 0.554 0.000 0.470 0.506 0.493 0.506 0.510
 4 LISMO  0.518 0.527 0.470 0.000 0.360 0.321 0.329 0.333
 5 BACAN  0.524 0.518 0.506 0.360 0.000 0.338 0.330 0.311
 6 STAA1  0.516 0.509 0.493 0.321 0.338 0.000 0.275 0.333
 7 BACSU  0.531 0.551 0.506 0.329 0.330 0.275 0.000 0.256
 8 GEOKA  0.551 0.548 0.510 0.333 0.311 0.333 0.256 0.000


Изображения деревьев в прмоугольной (слева) и угловой (справа) формах:
Кластерным методом:

Топологическим алгоритмом:


Главная страница
Страница семестра
© Галицына Александра, 2012