Учебный сайт Птицыной Елены

Cтудентки первого курса факультета биоинженерии и биоинформатики Московского государственного университета имени М.В. Ломоносова

Семестр 4, практикумы 1, 2, 3

Назад на учебную страницу Птицыной Елены

Филогенетическое дерево, Реконструкция филогении, Сравнение деревьев, укоренение, бутстреп

Бактерии

НазваниеМнемоникаТаксономическое положение
Streptococcus pyogenes serotype M1STRP1 cellular organisms; Bacteria; Terrabacteria group; Firmicutes; Bacilli; Lactobacillales; Streptococcaceae; Streptococcus; Streptococcus pyogenes
Streptococcus pneumoniae serotype 4STRPNcellular organisms; Bacteria; Terrabacteria group; Firmicutes; Bacilli; Lactobacillales; Streptococcaceae; Streptococcus
Lactococcus lactis subsp. cremorisLACLMcellular organisms; Bacteria; Terrabacteria group; Firmicutes; Bacilli; Lactobacillales; Streptococcaceae; Lactococcus
Lactobacillus acidophilusLACACcellular organisms; Bacteria; Terrabacteria group; Firmicutes; Bacilli; Lactobacillales; Lactobacillaceae; Lactobacillus
Lactobacillus delbrueckii subsp. bulgaricusLACDAcellular organisms; Bacteria; Terrabacteria group; Firmicutes; Bacilli; Lactobacillales; Lactobacillaceae; Lactobacillus
Enterococcus faecalisENTFAcellular organisms; Bacteria; Terrabacteria group; Firmicutes; Bacilli; Lactobacillales; Enterococcaceae; Enterococcus
Staphylococcus aureusSTAARcellular organisms; Bacteria; Terrabacteria group; Firmicutes; Bacilli; Bacillales; Staphylococcaceae; Staphylococcus
Staphylococcus epidermidisSTAEScellular organisms; Bacteria; Terrabacteria group; Firmicutes; Bacilli; Bacillales; Staphylococcaceae; Staphylococcus

Таксономическое положение получено с сервиса NCBI. Все бактерии имеют общую таксономию cellular organisms; Bacteria; Terrabacteria group; Firmicutes; Bacilli до уровня класса включительно. Более наглядно их систематическое положение отражено на дереве.

Скобочная формула дерева

Записана в файл 4-1.tre.

(((((STRP1,STRPN),LACLM),(LACAC,LACDA)),ENTFA),(STAAR,STAES));

Изображение дерева

Если установить программу MEGA, а потом 2 раза щёлкнуть на файл 4-1.tre, открывается изображение дерева.

MEGA
Рисунок 1. Филогенетическое дерево, построенное программой MEGA 7.0 (Older version)

Нетривиальные ветви дерева

Мы называем ветвь нетривиальной, если она разбивает множество листьев на подмножества, в каждом из которых более одного элемента. Есть 4 нетривиальных разбиения этого дерева:

{STRP1, STRPN} против {LACLM, LACAC, LACDA, ENTFA, STAAR, STAES}
{STRP1, STRPN, LACLM} против {LACAC, LACDA, ENTFA, STAAR, STAES}
{STRP1, STRPN, LACLM, LACAC, LACDA} против {ENTFA, STAAR, STAES}
{STRP1, STRPN, LACLM, LACAC, LACDA, ENTFA} против {STAAR, STAES}

Таблица:

STRP1 STRPN LACLM LACAC LACDA ENTFA STAAR STAES
   +     +     -     -     -     -     -     -
   +     +     +     -     -     -     -     -
   +     +     +     +     +     -     -     -
   +     +     +     +     +     +     -     -

Выравнивание последовательностей фактора элонгации трансляции Ts (EFTS)

По инструкции на kodomo: "Запустите JalView. В меню File выберите Fetch sequences. Щёлкните по "Select Database" и выберите Uniprot. Запишите через точку с запятой идентификаторы белков — выражения вида xxxx_yyyyy, где xxxx – выбранная вами мнемоника функции, а yyyyy – мнемоники отобранных вами организмов (в нашем случае efts_strp1; efts_strpn; efts_laclm; efts_lacac; efts_lacda; efts_entfa; efts_staar; efts_staes; ). После нажатия OK должно появиться окно с последовательностями. В этом окне выберите Web Service → Alignment → любая программа (например Muscle)". Было получено выравнивание, сохранённое в формате fasta. Далее в Jalview были изменены названия и оставлены только мнемоники видов, название белка из описания тоже удалено, выравнивание сохранено в файле снова в формате fasta.

Построение филогенетических деревьев исходя из выравнивания последотельностей фактора элонгации трансляции Ts (EFTS)

Файл с выравниванием был открыт программой MEGA (File -> Open, согласиться на Analyze и выделить строчку белков), далее разными способами построены деревья (Analysis -> Phylogeny -> ...).

MEGA
Рисунок 2. Molecular Phylogenetic analysis by Maximum Likelihood method .nwk The evolutionary history was inferred by using the Maximum Likelihood method based on the JTT matrix-based model [1]. The tree with the highest log likelihood (-2892.52) is shown. Initial tree(s) for the heuristic search were obtained automatically by applying Neighbor-Join and BioNJ algorithms to a matrix of pairwise distances estimated using a JTT model, and then selecting the topology with superior log likelihood value. The tree is drawn to scale, with branch lengths measured in the number of substitutions per site. The analysis involved 8 amino acid sequences. All positions containing gaps and missing data were eliminated. There were a total of 289 positions in the final dataset. Evolutionary analyses were conducted in MEGA7 [2]. 1. Jones D.T., Taylor W.R., and Thornton J.M. (1992). The rapid generation of mutation data matrices from protein sequences. Computer Applications in the Biosciences 8: 275-282. 2. Kumar S., Stecher G., and Tamura K. (2016). MEGA7: Molecular Evolutionary Genetics Analysis version 7.0 for bigger datasets.Molecular Biology and Evolution 33:1870-1874.
Рисунок 3. Evolutionary relationships of taxa .nwk The evolutionary history was inferred using the Neighbor-Joining method [1]. The optimal tree with the sum of branch length = 1.46595275 is shown. The tree is drawn to scale, with branch lengths in the same units as those of the evolutionary distances used to infer the phylogenetic tree. The evolutionary distances were computed using the Poisson correction method [2] and are in the units of the number of amino acid substitutions per site. The analysis involved 8 amino acid sequences. All positions containing gaps and missing data were eliminated. There were a total of 289 positions in the final dataset. Evolutionary analyses were conducted in MEGA7 [3]. 1. Saitou N. and Nei M. (1987). The neighbor-joining method: A new method for reconstructing phylogenetic trees. Molecular Biology and Evolution 4:406-425. 2. Zuckerkandl E. and Pauling L. (1965). Evolutionary divergence and convergence in proteins. Edited in Evolving Genes and Proteins by V. Bryson and H.J. Vogel, pp. 97-166. Academic Press, New York. 3. Kumar S., Stecher G., and Tamura K. (2016). MEGA7: Molecular Evolutionary Genetics Analysis version 7.0 for bigger datasets.Molecular Biology and Evolution 33:1870-1874.
MEGA
Рисунок 4. Evolutionary relationships of taxa .nwk The evolutionary history was inferred using the Minimum Evolution method [1]. The optimal tree with the sum of branch length = 1.46372440 is shown. The tree is drawn to scale, with branch lengths in the same units as those of the evolutionary distances used to infer the phylogenetic tree. The evolutionary distances were computed using the Poisson correction method [2] and are in the units of the number of amino acid substitutions per site. The ME tree was searched using the Close-Neighbor-Interchange (CNI) algorithm [3] at a search level of 1. The Neighbor-joining algorithm [4] was used to generate the initial tree. The analysis involved 8 amino acid sequences. All positions containing gaps and missing data were eliminated. There were a total of 289 positions in the final dataset. Evolutionary analyses were conducted in MEGA7 [5]. 1. Rzhetsky A. and Nei M. (1992). A simple method for estimating and testing minimum evolution trees. Molecular Biology and Evolution 9:945-967. 2. Zuckerkandl E. and Pauling L. (1965). Evolutionary divergence and convergence in proteins. Edited in Evolving Genes and Proteins by V. Bryson and H.J. Vogel, pp. 97-166. Academic Press, New York. 3. Nei M. and Kumar S. (2000). Molecular Evolution and Phylogenetics. Oxford University Press, New York. 4. Saitou N. and Nei M. (1987). The neighbor-joining method: A new method for reconstructing phylogenetic trees. Molecular Biology and Evolution 4:406-425. 5. Kumar S., Stecher G., and Tamura K. (2016). MEGA7: Molecular Evolutionary Genetics Analysis version 7.0 for bigger datasets.Molecular Biology and Evolution 33:1870-1874.
MEGA
Рисунок 5. Evolutionary relationships of taxa .nwk The evolutionary history was inferred using the UPGMA method [1]. The optimal tree with the sum of branch length = 1.47135863 is shown. The tree is drawn to scale, with branch lengths in the same units as those of the evolutionary distances used to infer the phylogenetic tree. The evolutionary distances were computed using the Poisson correction method [2] and are in the units of the number of amino acid substitutions per site. The analysis involved 8 amino acid sequences. All positions containing gaps and missing data were eliminated. There were a total of 289 positions in the final dataset. Evolutionary analyses were conducted in MEGA7 [3]. 1. Sneath P.H.A. and Sokal R.R. (1973). Numerical Taxonomy. Freeman, San Francisco. 2. Zuckerkandl E. and Pauling L. (1965). Evolutionary divergence and convergence in proteins. Edited in Evolving Genes and Proteins by V. Bryson and H.J. Vogel, pp. 97-166. Academic Press, New York. 3. Kumar S., Stecher G., and Tamura K. (2016). MEGA7: Molecular Evolutionary Genetics Analysis version 7.0 for bigger datasets.Molecular Biology and Evolution 33:1870-1874.
MEGA
Рисунок 6. Maximum Parsimony analysis of taxa .nwk The evolutionary history was inferred using the Maximum Parsimony method. The most parsimonious tree with length = 414 is shown. The consistency index is 0.859903 (0.828909), the retention index is 0.767068 (0.767068), and the composite index is 0.659605 (0.635829) for all sites and parsimony-informative sites (in parentheses). The MP tree was obtained using the Subtree-Pruning-Regrafting (SPR) algorithm (pg. 126 in ref. [1]) with search level 0 in which the initial trees were obtained by the random addition of sequences (10 replicates). The analysis involved 8 amino acid sequences. All positions containing gaps and missing data were eliminated. There were a total of 289 positions in the final dataset. Evolutionary analyses were conducted in MEGA7 [2]. 1. Nei M. and Kumar S. (2000). Molecular Evolution and Phylogenetics. Oxford University Press, New York. 2. Kumar S., Stecher G., and Tamura K. (2016). MEGA7: Molecular Evolutionary Genetics Analysis version 7.0 for bigger datasets.Molecular Biology and Evolution 33:1870-1874.

Укоренение с использованием внешней группы

По инструкции на kodomo: "Запустите JalView. В меню File выберите Fetch sequences. Щёлкните по "Select Database" и выберите Uniprot. Запишите через точку с запятой идентификаторы белков — выражения вида xxxx_yyyyy, где xxxx – выбранная вами мнемоника функции, а yyyyy – мнемоники отобранных вами организмов (в нашем случае efts_strp1; efts_strpn; efts_laclm; efts_lacac; efts_lacda; efts_entfa; efts_staar; efts_staes; efts_ecoli;). После нажатия OK должно появиться окно с последовательностями. В этом окне выберите Web Service → Alignment → любая программа (например Muscle)". Было получено выравнивание, сохранённое в формате fasta. Далее в Jalview были изменены названия и оставлены только мнемоники видов, название белка из описания тоже удалено, выравнивание сохранено в файле снова в формате fasta.

Файл с выравниванием был открыт программой MEGA (File -> Open, согласиться на Analyze и выделить строчку белков), далее методом максимальной экономии ("Maximum parsimony") построено дерево (Analysis -> Phylogeny -> ...) и сохранено в png (Рис. 7) и nwk.

MEGA
Рисунок 7. Maximum Parsimony analysis of taxa (+ E.coli) .nwk The evolutionary history was inferred using the Maximum Parsimony method. The most parsimonious tree with length = 519 is shown. The consistency index is 0.840077 (0.806977), the retention index is 0.716724 (0.716724), and the composite index is 0.602103 (0.578379) for all sites and parsimony-informative sites (in parentheses). The MP tree was obtained using the Subtree-Pruning-Regrafting (SPR) algorithm (pg. 126 in ref. [1]) with search level 0 in which the initial trees were obtained by the random addition of sequences (10 replicates). The analysis involved 9 amino acid sequences. All positions containing gaps and missing data were eliminated. There were a total of 280 positions in the final dataset. Evolutionary analyses were conducted in MEGA7 [2]. 1. Nei M. and Kumar S. (2000). Molecular Evolution and Phylogenetics. Oxford University Press, New York. 2. Kumar S., Stecher G., and Tamura K. (2016). MEGA7: Molecular Evolutionary Genetics Analysis version 7.0 for bigger datasets.Molecular Biology and Evolution 33:1870-1874.

По инструкции с kodomo: "После реконструкции дерева нужно в меню Subtree выбрать Root и указать в качестве корня ветвь, ведущую к ECOLI" получено дерево (Рис. 8).

MEGA
Рисунок 8. Maximum Parsimony analysis of taxa (+ E.coli-root) The evolutionary history was inferred using the Maximum Parsimony method. The most parsimonious tree with length = 519 is shown. The consistency index is 0.840077 (0.806977), the retention index is 0.716724 (0.716724), and the composite index is 0.602103 (0.578379) for all sites and parsimony-informative sites (in parentheses). The MP tree was obtained using the Subtree-Pruning-Regrafting (SPR) algorithm (pg. 126 in ref. [1]) with search level 0 in which the initial trees were obtained by the random addition of sequences (10 replicates). The analysis involved 9 amino acid sequences. All positions containing gaps and missing data were eliminated. There were a total of 280 positions in the final dataset. Evolutionary analyses were conducted in MEGA7 [2]. 1. Nei M. and Kumar S. (2000). Molecular Evolution and Phylogenetics. Oxford University Press, New York. 2. Kumar S., Stecher G., and Tamura K. (2016). MEGA7: Molecular Evolutionary Genetics Analysis version 7.0 for bigger datasets.Molecular Biology and Evolution 33:1870-1874.

Далее по инструкции с kodomo: "чтобы получить изображение укоренённого дерева без ECOLI, нужно воспользовавться кнопкой "Show Subtree Separately" (изображение голубой лупы на фоне дерева на левой панели окна MEGA)" получено изображение (Рис. 9).

MEGA
Рисунок 9. Maximum Parsimony analysis of taxa (+ E.coli-root), изображение укоренённого дерева без ECOLI.nwk

Бутстрэп

"При бутстрэп-анализе (bootstrap — «петля на заднике ботинка») из исходного выравнивания в результате случайного удаления половины столбцов и заменой их копиями других (тоже случайно выбранных) столбцов создается бутстрэп-реплика. Создается их много (100-500). Далее для каждой реплики строится дерево, а из них по методу расширенного большинства (сначала строится дерево из ветвей, встретившихся в большинстве исходных деревьев, а потом к нему добавляются ветви, не противоречащие уже имеющимся) строится т.н. консенсусное дерево. При этом длины ветвей теряются, а ветви подписываются бутстрэп-поддержкой — процентом деревьев, в которых встретилась данная ветвь (нетривиальная)."

Файл с выравниванием был открыт программой MEGA (File -> Open, согласиться на Analyze и выделить строчку белков), далее методом Neighbor-Joining построено дерево (Analysis -> Phylogeny -> Neighbor-Joining, при этом в окошке надо было выбрано est of Phylogeny - Bootstrap method, число реплик 100) и сохранено в png и nwk.

MEGA
Рисунок 10. .nwk для bootstrap Эталонное дерево по систематическому положению & Дерево, построенное Neighbor-Joining method (original) & Дерево, построенное Neighbor-Joining method с помощью бутстрэп-анализа (consensus)

16S

В списке по ссылке ftp://ftp.ncbi.nlm.nih.gov/genomes/archive/old_refseq/Bacteria/ был найден all.frn.tar.gz, в котором лежит информация по разным штаммов разных бактерий. Из fastа файлов вырезаны последовательности 16S рРНК и положены в файл 16S.fasta с заменой длинных названий на мнемоники видов. В Jalview File -> Input alignment -> Выбор 16.fasta. Далее выравнивание с помощью Muscle (Web Service -> Alignment -> ...). Выравнивание сохранено в файл 16Salign.fa. Файл с выравниванием был открыт программой MEGA (File -> Open, согласиться на Analyze и выделить строчку нуклеотидов), далее разными способами построены деревья (Analysis -> Phylogeny -> ...).