Учебный сайт Левина Ильи, 4-й семестр

Укоренение деревьев

Бутстреп-анализ

Задание 1: Укорненение с использованием внешней группы

В этом задании надо было полученное в прошлом практикуме филогенетическое дерево протеобактерий (по белку RSMH) укоренить с использованием внешней группы. В качестве внешней группы была выбрана сенная палочка Bacillus subtilis (BACSU).

Сначала последовательности соответствующих белков (RSMH), включая белок сенной палочки, были повторно выровнены, а позже построено дерево методом MP (см. рис. 1). После этого было выделено укоренённое поддерево исходных бактерий (см. рис. 2).

Tree_with_group.png
Рис. 1. Филогенетическое дерево моих бактерий с внешней группой, построенное по 16S рРНК-метилтрансферазе Н.
Root_Tree.jpg
Рис. 2. Укоренённое филогенетическое дерево моих исходных бактерий, построенное по 16S рРНК-метилтрансферазе Н.

Как мы можем заметить, по сравнению с референсом из первого практикума дерево у нас укоренилось совершенно неправильно.

Задание 2: Бутстреп

В этом задании надо было провести бутстреп-анализ филогении (если так можно выразиться) моих бактерий по белку RSMH и, собственно, сформулировать какой-либо вывод с помощью полученных результатов.

Так как MEGAX у меня окончательно отказалась работать (MacOS Big Sur), я решил провести бутстреп-анализ с помощью программ из пакета PHYLIP, который, кстати, установлен на kodomo. Делал я это так:

Шаг 1. Сначала я перенёс на kodomo файл с выравниванием RSMH-белков моих бактерий, где применил к нему команду fseqboot:

$ fseqboot -seqtype p RSMH_align.fasta

Программа fseqboot создаёт и записывает в файл с расширением .fseqboot 100 бутстреп-реплик. Почему 100? Потому что это параметр по умолчанию. Собственно, меня устроили и все остальные параметры по умолчанию, кроме одного: -seqtype b, в котором я решил указать, что последовательности на вход я подаю именно белковые. RSMH_align.fasta - файл с выровненными последовательностями белков из наших бактерий.

Шаг 2. Далее из полученных реплик надо построить деревья. Сделал я это с помощью метода максимального правдоподобия:

$ fproml rsmh_align.fseqboot

Расшифровывается программа так: f - приставка пакета EMBOSSY, pro - protein, ml - maximum likelihood, то есть программа строит филогенетическое древо белковых последовательностей методом максимального правдоподобия. В ней меня устроили вообще все параметры по умолчанию. Все деревья записались в файл с расширением .treefile.

Шаг 3. Осталось получить консенсус:

$ fconsense rsmh_align.treefile

Программа fconsense находит/строит консенсусное дерево из того множества деревьев, которые мы подадим ему на вход. Я, очевидно, подал программе на вход файл с расширением .treefile, который получил на прошлом шаге. Тут тоже все параметры по умолчанию меня устроили, в том числе и то, что по умолчанию программа строит консенсус методом расширенного большинства. Выход программы был таков:

Bootstrap_consense_tree.png
Рис. 3. Консенсусное филогенетическое дерево бактерий по белку RSMH после бутстреп-анализа
Bootstrap_consense_tree.jpg
Рис. 4. Консенсусное филогенетическое дерево бактерий по белку RSMH после бутстреп-анализа (отредактированное)

Сразу стоит сказать, что надёжной я считал ветвь с бутстреп-поддержкой больше 50. И как мы можем заметить, после бутстреп-анализа у нас произошло разделение: 2 ветви оказалась ненадёжными, а остальные - надёжными. И этими двумя ненадёжными ветвями оказались как раз в точности неправильные ветви! В то время как правильные ветви получили бутстреп-поддержку больше 50 (большинство получило даже ровно 100). Это нам говорит о том, что даже не смотря на 2 неправильные ветви, само по себе дерево получилось довольно близким к консенсусу, который мы получили в практикуме 1.

Задание 3: Построение дерева по нуклеотидным последовательностям

В этом задании надо было построить филогенетическое дерево всё тех же бактерий, что в предыдущих заданиях, используя последовательности 16S rRNA.

Собственно, план таков:

  1. Скачать последовательности;
  2. Выровнять последовательности (буду использовать программу muscle);
  3. Построить филогенетическое дерево (использовать буду программы пакета PHYLIP; строить филогенетическое дерево с помощью метода Neighbor-Joining);
  4. Визуализировать дерево (в моём случае это будет FigTree).

Поехали!

Шаг 1. Сначала надо скачать последовательности 16S rRNA. Сделал я это таким образом: просто нашёл и скопировал с сайта. На этом сайте каждая папка - бактериальный штамм, а в каждой папке есть файл(ы) с расширением .frn, и вот в таких файлах лежат последовательности 16S рРНК. Копировал я последовательности методом copy-paste.

Шаг 2. Далее я выровнял последовательности с помощью программы muscle:

$ muscle -in 16SrRNA_bacts.fasta -out 16SrRNA_bacts_align.fasta

И посчитал матрицу расстояний между последовательностями:

$ fdnadist 16SrRNA_bacts_align.fasta

Программа fdnadist относится к пакету PHYLIP и позволяет посчитать матрицу расстояний между выровненными последовательностями, которые мы ей подадим на вход. Я подал ей на вход файл с выравниванием, который получил выше. При запуске программы меня устроили все параметры по умолчанию.

Шаг 3. Построил филогенетическое дерево методом Neighbor-Joining:

$ fneighbor 16srrna_bacts_align.fdnadist

Программа fneighbor также относится к пакету программ PHYLIP, принимает в себя посчитанную матрицу расстояний между последовательностями и по умолчанию строит филогенетическое дерево методом Neighbor-Joining. Собственно, и при запуске этой программы тоже меня устроили все параметры по умолчанию.

Шаг 4. Ну и, собственно, визуализация с помощью FigTree:

16SrRNA_bacts_tree.jpg
Рис. 5. Филогенетическое дерево данных мне бактерий, реконструированное по их 16S рРНК

Собственно, как можно сразу заметить, дерево полностью совпадает с консенсусом из прошлого задания. Это всё нам говорит о том, что реконструкция филогении по 16S рРНК-метилтранферазе H настолько же надёжна, как и реконструкция по само́й невероятно консервативной 16S рРНК. Можно даже предположить, что 16S рРНК-метилтранфераза Н имеет схожую степень консервативности, что и 16S рРНК, но это уже совсем другая история... Но при этом мы всё ещё имеем 2 неправильные ветви.