Филогенетические деревья. Занятие 4. Реконструкция деревьев по нуклеотидным последовательностям. Анализ деревьев, содержащих паралоги

1. Построение дерева по нуклеотидным последовательностям

Строю филогенетическое дерево тех же бактерий, что в предыдущих заданиях, используя последовательности РНК малой субъединицы рибосомы (16S rRNA). Нужные последовательности вырезаю из записей EMBL с помощью seqret с опцией -sask.

НазваниеМнемоникаAC записи EMBL Координаты 16S рРНК Цепь
Bacillus subtilisBACSUAL0091269810-11364 прямая
Clostridium tetaniCLOTEAE0159278715-10223 прямая
Geobacillus kaustophilusGEOKABA00004310421-11973 прямая
Lactobacillus acidophilusLACACCP000033 59255-60826 прямая
Lactococcus lactisLACLMCP002365470580-472133 прямая
Listeria monocytogenesLISMOAL59197437466-39020 прямая
Staphylococcus aureusSTAA1CP003808540419-542060 прямая

Осуществляю выравнивание Muscle with Defaults в JalView, используя Web Service. Получаю allalign.fasta. Провожу бутстрэп-анализ, используя метод, доступный в программе MEGA - Neighbour Joining. В окошке, которое открывается после вызова программы, в меню "Test of Phylogeny" выбираю "Bootstrap method". Указываю число реплик, равное 100.

Original tree и Bootstrap consensus tree соответственно

Правильное дерево:

Полученное дерево не совпадает с правильным.

Новые ветви: {LACLM, LACAC, LISMO, STAA1} против {BACSU, GEOKA, CLOTE}, {LISMO, STAA1} против {LACLM, LACAC, BACSU, GEOKA, CLOTE}. Эти ветви ошибочны и имеют наименьшую поддержку - по 35, что сразу говорит о большой вероятности ошибки при определении их положения в дереве.

Отсутствующие ветви: {BACSU, GEOKA, LISMO} против {CLOTE, LACAC, LACLM, STAA1}, {BACSU, GEOKA, LISMO, STAA1} против {CLOTE, LACAC, LACLM}.

Далее пробую получить выравнивание с Clustal. Получаю allalign2.fasta. Снова провожу бутстрэп-анализ с Neighbour Joining.

Original tree и Bootstrap consensus tree соответственно

Правильное дерево:

Полученное дерево снова не совпадает с правильным.

Новые ветви: {BACSU, STAA1} против {LISMO, GEOKA, LACAC, LACLM, CLOTE}, {BACSU, STAA1, LISMO} против {GEOKA, LACAC, LACLM, CLOTE}, {BACSU, STAA1, LISMO, GEOKA, LACAC} против {LACLM, CLOTE}.


Отсутствующие ветви: {LACAC, LACLM} против {CLOTE, BACSU, GEOKA, LISMO, STAA1}, {BACSU, GEOKA} против {CLOTE, LACAC, LACLM, LISMO, STAA1}, {BACSU, GEOKA, LISMO} против {CLOTE, LACAC, LACLM, STAA1}.

Удаление некоторых "плохих" участков выравнивания приводит к аналогичным деревьям (с теми же нетривиальными ветвями). Качество реконструкции по сравнению с деревьями, построенными по белкам оказалось ниже (дерево, полученное данным методом на прошлом занятии совпало с правильным).

Мне казалось, белковые выравнивания предпочтительнее для исследований, так или иначе связанных с функциями молекул, т.к. они позволяют учесть свойства аминокислотных остатков. Очевидно, вероятность случайного совпадения при анализе нуклеотидных последовательностей меньше, т.к. стандартных нуклеотидов в 5 раз меньше, чем аминокислот, и многие аминокислоты кодируются несколькими кодонами (до 6). Т.е. нуклеотидные выравнивания позволяют увидеть более реальную картину гомологии. Плюс, исследуя филогенетику с помощью рРНК, наверное, неплохо бы учитывать вторичную структуру. Она содержит много шпилек и довольно сурова, можно посмотреть.

Впринципе, при построении филогенетических деревьев организмов, я бы использовала и белковые и нуклеотидные последовательности, т.к. для их выравниваний есть свои преимущества и свои недостатки.

2. Построение и анализ дерева, содержащего паралоги

Нахожу в своих бактериях достоверные гомологи белка CLPX_BACSU и строю дерево этих гомологов. Чтобы найти гомологов в заданных организмах, использую файл proteo.fasta с диска P, в котором лежат записи банка UNIPROT, относящиеся к бактериям, перечисленным в таблице к заданию 1. Провожу поиск программой blastp гомологов (с порогом на E-value = 0,001) и отбираю по мнемонике видов только те находки, которые относятся к отобранным бактериям - clpx.txt. Получаю hom.fasta.

Осуществляю выравнивание Muscle with Defaults в JalView. Получаю homal.fasta. Провожу бутстрэп-анализ, используя Neighbour Joining.

Bootstrap consensus tree

Два гомологичных белка - ортологи, если они а) из разных организмов; б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования.

Примеры: CLPX_BACSU и CLPX_GEOKA, HSLU_STAA1 и HSLU_LISMO.

Два гомологичных белка из одного организма - паралоги.

Примеры: Q8Y8B1_LISMO и Q8YAB6_LISMO, Q891B9_CLOTE и Q899H3_CLOTE.


© Eugenia Prokhorova 2011