Построение деревьев по нуклеотидным последовательностям. Внешние группы. Бутстрэп

Построение деревьев по 12S рРНК

Я взял последовательности 12S (или small subunit) rRNA у организмов из предыдущих двух практикумов (FASTA)

Затем выравнял их алгоритмом Muscle. Но передо мной встал вопрос, как мне учитывать гэпы? Полностью убрать? Оставить всё на волю программе? Или убрать столбцы, где гэпов больше 70%?

Чтобы это выяснить, давайте сравним деревья с разным количеством гэпов:

Рис. 1 - сравнение филогенетических деревьев с разным количеством гэпов, для построения использовались нуклеотидные последовательности 12S рРНК среди представителей клады Spiralia, применялась программа Fastme с оценкой расстояния p-distance и алгоритмом минимальной эволюции. Укоренение производилось за базальную группу Gnathifera, организмы которой имеют мнемоники BRAPC и PARGO

Снизу приведу референсное (таксономическое) дерево для сравнения с ним:

Рис. 2 - Таксономическое дерево клады Spiralia

Деревья 'Some gaps' и 'All gaps' смогли правильно выделить правильно группу Gnathifera

Но дерево 'No gaps' почему-то добавило к этой группе организм с мнемоникой LEPTH, который относится к Lophotrochozoa, а не Gnathifera.

Однако дерево без гэпов всё же смогло объединить между собой группы CEPNE и ALBCA.

Также из положительных, но не абсолютно правильных можно выделить несколько черт:

– дерево 'All gaps' объединило родственные HETBL и ALBCA в одну группу

– дерево 'Some gaps' объединило родственные HETBL и ALBCA в одну группу, вынесло LEPTH за пределы всех остальных Lophotrochozoa

Самым худшим, по моему мнению, оказалось дерево 'No gaps', а самым (относительно) лучшим - 'Some gaps'. Поэтому именно его я буду использовать для сравнения с деревом построенным по цитохрому B

Рис. 3 - Cравнение филогенетических деревьев, построенных по нуклеотидным последовательностям (mitochondrial 12S rRNA) и по белковым последовательностям (mitochondrial cytochrome B) в кладе Spiralia. Использовалась одна и та же программа Fastme с оценкой расстояний p-distance и алгоритмом минимальной эволюции. Синей сплошной линией показаны правильно выделенные группы, а синей пунктирной положительные черты деревьев (частично правильные моменты).

Исходя из третьего рисунка можно прийти к выводу, что для моих организмов деревья, построенные по нуклеотидным последовательностям 12S rRNA, смогли лучше определить родство для дальних родственников и отделить базальную группу (Gnathifera – BRAPC и PARGO) от всех остальных видов, однако не смогли определить группу близкородственных организмов (род Helicina – CEPNE + ALBCA). Для деревьев, построенных по белковым последовательностям цитохрома B, верно обратное.

Однако оба дерева не смогли объединить MYZSE и LUMTE в группу Annelida, показать отдаленность от всех остальных видов LOXAA, LEPTH и BUGNE, а также полностью реконструировать группу Mollusca, состоящую из HETBL, MYTED и CEPNE с ALBCA.

Также для интереса я построил по нуклеотидной последовательности 12S деревья при помощи эволюционных моделей Kimura и Symmetric, вы можете посмотреть их здесь (папка с картинками)

Крайне неплохим получилось дерево, построенное программой IQtree:

Рис. 4 - Дерево построенное по нуклеотидным последовательностям 12S rRNA при помощи программы IQtree с использованием эволюционной модели TN+F+G4 (TN - матрица замещений нуклеотидов, у которой пиримидиновые и пуриновые транзиции имеют разные вероятности, F - частоты нуклеотидов у разных нуклеотидов неодинаковые и высчитываются по моему выравниванию, G4 - определяет то, что разные участки ДНК мутируют с разной скоростью), гэпы мною никак вручную не обрабатывались, переборный алгоритм программы - максимальное подобие, алгоритм построения начального дерева - максимальная парсимония. Сплошная синяя линия - правильная группа, пунктирная синяя линяя - положительная черта дерева (относительно правильный участок)

Это дерево не только правильно отделило базальную группу Gnathifera, включающую в себя BRAPC и PARGO, но и смогло правильно определить близкие виды одного рода Helicina: ALBCA и CEPNE. Из положительных черт это то, что дерево сблизило HETBL, CEPNE и ALBCA (принадлежат моллюскам) и выкинуло LOXAA за пределы, не приписав его ни к одной другой группе внутри Lophotrochozoa.

Укоренение во внешнюю группу

Сестринской к кладе Spiralia является группа Ecdysozoa, обе эти группы принадлежат к первичноротым Prostomia. В качестве внешней группы я решил сначала взять представителя отряда мечехвостов - Limulus polyphemus. Сначала я разберу деревья, построенные по аминокислотным последовательностм цитохрома b:

Рис. 5 - Сравнение деревьев: с внешней группой и без внешней группы. Оба дерева построены по белковым последовательностям цитохрома b при помощи программы Fastme c оценкой P-distance и алгоритмом минимальной эволюции. Укоренение за внешнюю группу – LIMPO (Limulus polyphemus)

Каких-то кардинальных изменений не произошло:

правильные группы остались правильными, неправильные группы остались неправильными. Из положительных черт можно выделить то, что в дереве с внешней группой организм с мнемоникой LOXAA не сближен ни с одним другим организмом (так и должно быть).

Дерево по нуклеотидной последовательности 12S рРНК, полученное при помощи IQtree получилось неплохим. И мне стало интересно, станет ли оно лучше, если добавить внешнюю группу (спойлер: нет):

Рис. 6 - Сравнение деревьев: с внешней группой и без внешней группы. Оба дерева построены по нуклеотидным последовательностям 12S рРНК при помощи программы IQtree c эволюционной моделью TIM3+F+I+G4 (TIM3 - частоты пиримидиновых и пуриновых транзиций разные, трансверсии тоже имеют различные частоты; F - частоты нуклеотидов по моим последовательностям 12S рРНК; I - учитывает консервативные участки; G4 - различная скорость эволюции в разных участках описывается гамма-распределением) и алгоритмом максимального правдоподобия. Начальное дерево строилось по алгоритму максимальной парсимонии. Укоренение за внешнюю группу – LIMPO (Limulus polyphemus)

По неизвестным причинам дерево с внешней группой намного хуже отражает реальность, чем дерево без внешней группы. Это видно хотя бы по тому, что:

К Gnathifera (BRAPC+PARGO) каким-то образом занесло LEPTH (принадлежащего Lophotrochozoa), HETBL - отделился от моллюсков (CEPNE+ALBCA+MYTED+HETBL), Единственный плюс дерева с внешней группой – это то, что MYTED стал сближен с другими представителями моллюсков ALBCA и CEPNE.

Бутстреп

Дерево на рисунке 4, построенное алгоритмом IQtree по нуклеотидным последовательностям малой митохондриальной рРНК (=12S рРНК) оказалось самым лучшим (относительно всех остальных плохих деревьев). И для того, чтобы проверить, является ли данный результат случайностью или программа действительно смогла разобраться с филогенией Spiralia, я намерен использовать бутстрэп. Для этого я использовал команду:

iqtree -s 12S.phy -b 100 -redo

"-b 100" – делает 100 реплик, "-redo" – позволяет повторно использовать команду IQtree на одном и том же файле с выравниваниями.

В итоге у меня получилось следующее дерево:

Рис. 7 - дерево, построенное по нуклеотидным последовательностям 12S рРНК в кладе Spiralia программой IQtree с опцией создания 100 реплик (бутстреп) c использованием эволюционной модели TN+F+G4 (TN - матрица замещений нуклеотидов, у которой пиримидиновые и пуриновые транзиции имеют разные вероятности, F - частоты нуклеотидов у разных нуклеотидов неодинаковые и высчитываются по моему выравниванию, G4 - определяет то, что разные участки ДНК мутируют с разной скоростью) и алгоритмом максимального правдоподобия.

Из рисунка видно, что правильные (с таксономической точки зрения) группы, действительно, имеют неплохую восппроизводимость (43 у Gnathifera – PARGO+BRAPC; 59 у Helicina - CEPNE+ALBCA). Неправильные же группы LEPTH+BUGNE или LUMTE+MYTED имеют низкую воспроизводимость (значение бутстрепа) – 15 и 5 соответственно. Однако сближения HETBL (представителя моллюсков) с ALBCA+CEPNE (также представителями моллюсков) имеет низкую вопроизводимость - 11, хотя с точки зрения таксономии – это правильный ход. Интересно то, что группа из (MYZSE+HETBL+CEPNE+ALBCA+MYTED+LUMTE+LEPTH+BUGNE) выделяется с неплохой воспроизводимость в 29, это означает, что в 29 из 43 случаев, когда выделяются Lophotrochozoa (LOXAA+MYZSE+HETBL+CEPNE+ALBCA+MYTED+LUMTE+LEPTH+BUGNE) организм LOXAA будет отходить раньше всех, что в принципе не так далеко от истины (это можно понять, если посмотреть на таксономические дерево)