Филогенетические деревья

Занятие 1

Отобранные бактерии

НазваниеМнемоника
Clostridium botulinumCLOB1
Thermoanaerobacter tengcongensisTHETN
Lactobacillus acidophilusLACAC
Bacillus anthracisBACAN
Bacillus subtilisBACSU
Geobacillus kaustophilusGEOKA
Staphylococcus aureusSTAA1
Staphylococcus epidermidisSTAES

Скобочная формула дерева

((((STAA1,STAES),((BACAN,BACSU),GEOKA)),LACAC),(CLOB1,THETN));
  

Изображение дерева


Ветви дерева

Дерево содержит пять нетривиальных ветвей:
1) {CLOB1, THETN} vs {LACAC, BACAN, BACSU, GEOKA, STAA1, STAES}
2) {CLOB1, THETN, LACAC} vs {BACAN, BACSU, GEOKA, STAA1, STAES}
3) {CLOB1, THETN, LACAC, BACAN, BACSU, GEOKA} vs {STAA1, STAES}
4) {CLOB1, THETN, LACAC, STAA1, STAES} vs {BACAN, BACSU, GEOKA}
5) {CLOB1, THETN, LACAC, STAA1, STAES, GEOKA} vs {BACAN, BACSU}

Занятие 2

1.

Таксономия отобранных бактерий (данные из банка NCBI taxonomy database):

Clostridium botulinum
cellular organisms; Bacteria; Firmicutes; Clostridia; Clostridiales; Clostridiaceae; Clostridium

Thermoanaerobacter tengcongensis
cellular organisms; Bacteria; Firmicutes; Clostridia; Thermoanaerobacterales; Thermoanaerobacteraceae; Caldanaerobacter; Caldanaerobacter subterraneus

Lactobacillus acidophilus
cellular organisms; Bacteria; Firmicutes; Bacilli; Lactobacillales; Lactobacillaceae; Lactobacillus

Bacillus anthracis
cellular organisms; Bacteria; Firmicutes; Bacilli; Bacillales; Bacillaceae; Bacillus; Bacillus cereus group

Bacillus subtilis
cellular organisms; Bacteria; Firmicutes; Bacilli; Bacillales; Bacillaceae; Bacillus; Bacillus cereus group

Geobacillus kaustophilus
cellular organisms; Bacteria; Firmicutes; Bacilli; Bacillales; Bacillaceae; Geobacillus

Staphylococcus aureus
cellular organisms; Bacteria; Firmicutes; Bacilli; Bacillales; Staphylococcaceae; Staphylococcus

Staphylococcus epidermidis
cellular organisms; Bacteria; Firmicutes; Bacilli; Bacillales; Staphylococcaceae; Staphylococcus


2-3.

Для реконструкции филогенетического дерева были взяты белки, принадлежащие семейству белков-факторов элонгации трансляции Ts. Белки были выровнены програмой muscle.

5.

Дерево, построенное программой fprotpars, установленой на сервере kodomo
как часть пакета EMBOSS (неукорененное!):
Правильное дерево:

Скобочная формула дерева, построенного программой fprotpars: ((((BACSU,(BACAN,GEOKA)),(STAES,STAA1)),(THETN,CLOB1)),LACAC);
Чтобы записать скобочную формулу, дерево укоренили в тривиальную ветвь {LACAC} vs {CLOB1, THETN, STAA1, STAES, GEOKA, BACAN, BACSU}.

Если укоренить дерево, построенное программой fprotpars, в ветвь {CLOB1, THETN} vs {LACAC, BACAN, BACSU, GEOKA, STAA1, STAES} и правильно сгруппировать листья в кладе GEOKA-BACAN-BACSU, то получится дерево идентичное правильному.

Ветвь {CLOB1, THETN, LACAC, STAA1, STAES, BACSU} vs {BACAN, GEOKA} присутствует в дереве, построенном программой fprotpars, и отсутствует в правильном дереве.
Ветвь {CLOB1, THETN, LACAC, STAA1, STAES, GEOKA} vs {BACAN, BACSU} присутствует в правильном дереве и отсутствует в дереве, построенном программой fprotpars.

6.

Эволюционные расстояния между последовательностями выбранных белков, оцененные программой fprotdist:



Расстояния отклоняются от ультраметричности:
в идеале - если d(LACAC, CLOB1) > d(CLOB1, THETN), то d(LACAC, THETN) = d(LACAC, CLOB1)
в реальности - 1.062567=d(LACAC, CLOB1) > d(CLOB1, THETN)=0.672791, но 0.869269=d(LACAC, THETN) ≠ d(LACAC, CLOB1)=1.062567

Расстояния отклоняются от аддитивности:
в идеале - из трех сумм 1) d(CLOB1,THETN)+d(STAA1,STAES) 2) d(CLOB1,STAA1)+d(THETN,STAES) 3) d(CLOB1,STAES)+d(THETN,STAA1) две равны между собой и больше третьей
в реальности - 1) d(CLOB1,THETN)+d(STAA1,STAES)=0,769917 2) d(CLOB1,STAA1)+d(THETN,STAES)=1,543206 3) d(CLOB1,STAES)+d(THETN,STAA1)=1,518405

7.

Реконструкции филогенетического дерева программой fneighbor:
алгоритм UPGMA алгоритм Neighbor-Joining

в отличие от правильного дерева, отсутствует ветвь {CLOB1, THETN} vs {LACAC, BACAN, BACSU, GEOKA, STAA1, STAES} (та, в которую должно быть укоренено дерево), но присутствует ветвь {CLOB1, LACAC} vs {THETN, BACAN, BACSU, GEOKA, STAA1, STAES}

неукорененное дерево; все ветви совпадают с ветвями правильного дерева

алгоритм предполагает молекулярные часы; длины ветвей можно интерпритировать как время;

алгоритм не предполагает молекулярные часы; длины ветвей отражают число мутаций, произошедших на пути от общего предка;

Занятие 3

1.

Укоренение дерева, построенного при выполнении задания 7 предыдущего занятия методом neighbor-joining, в среднюю точку (при помощи программы retree пакета PHYLIP):
Дерево до укоренения:

Дерево после укоренения:

Дерево укоренено в ветвь {CLOB1, THETN} vs {LACAC, BACAN, BACSU, GEOKA, STAA1, STAES}. Дерево правильное.

Почему это нельзя сделать с деревьями, построенными методом максимальной экономии?
У дерева, построенного методом максимальной экономии, не оценены длины ветвей.

Почему это не имеет смысла делать с деревом, построенным методом UPGMA?
Дерево, построенное методом UPGMA, уже укоренено.

2.

Укоренение дерева отобранных бактерий с использованим внешней группы:
На основании выравнивания EFTS-белков отобранных бактерий и EFTS-белка E.coli, программами fprotpars и retree было построено и укоренено дерево (в качестве аутгруппы использовался белок E.coli).

Укорененное дерево (вместе с листом ECOLI):

Дерево укоренено в ветвь {CLOB1, THETN} vs {LACAC, BACAN, BACSU, GEOKA, STAA1, STAES}. Дерево укоренено правильно.
В полученном дереве присутствует неправильная ветвь {CLOB1, THETN, LACAC, STAA1, STAES, BACSU} vs {BACAN, GEOKA}, и отсутствует правильная ветвь {CLOB1, THETN, LACAC, STAA1, STAES, GEOKA} vs {BACAN, BACSU}

3.

Реконструкция филогенетического дерева выбранных бактерий при помощи будстрэп-анализа:
При помощи программы fseqboot создаем 100 бутстрэп-реплик выравнивания EFTS-белков выбранных бактерий.
При помощи программы fprotpars строим дерево по каждой из будстрэп-реплик.
При помощи программы fconsense создаем из полученных деревьев единое дерево по принципу "расширенного большинства" (extended majority rule tree).

Дерево - результат будстрэп-анализа:

В данном случае результат реконструкция филогении при помпомощи будстрэп-анализа совпадает с результатом работы программы fprotpars на исходном выравнивании: в полученном дереве присутствует неправильная ветвь {CLOB1, THETN, LACAC, STAA1, STAES, BACSU} vs {BACAN, GEOKA}, и отсутствует правильная ветвь {CLOB1, THETN, LACAC, STAA1, STAES, GEOKA} vs {BACAN, BACSU}. У неправильной ветви слабая (65.2) будстрэп-поддержка!
В выходном файле перечислены ветви, не вошедшие в единое дерево. Среди них - есть верная: {CLOB1, THETN, LACAC, STAA1, STAES, GEOKA} vs {BACAN, BACSU} (описана как ..******). Будстрэп-поддержка этой ветви - 25.33 - самая сильная будстрэп-поддержка среди ветвей, не вошедших в единое дерево.

Занятие 4

1.


Построение филогенетического дерева выбранных бактерий по последовательностям ДНК бактерий, кодирующим 16S рибосомальную РНК:

Создание fasta-файла с необходимыми последовательностями (на примере BACAN):
1. Получаем запись БД Swiss-Prot о белке интересующей нас бактерии - entret sw:efts_bacan.
2. Из полученной записи узнаем AC записи EMBL, описывающей полный геном бактерии:
.
3. Получаем запись с геномом - entret embl:ae016879.
4. Из записи EMBL узнаем координаты фрагмента генома, кодирующего 16S rRNA:
.
5. Дописываем фрагмент в файл dna.fasta - seqret embl:ae016879[9335:10841] stdout>>dna.fasta.

БактерияAC записи EMBL, описывающей полный геном бактерииФрагмент генома бактерии, кодирующий 16S rRNA (все фрагменты лежат на цепях, выбранных для записи)
CLOB1CP0007269282..10783
THETNAE00869153858..55384
LACACCP00003359255..60826
BACANAE0168799335..10841
BACSUAL0091269810..11364
GEOKABA00004310421..11973
STAA1AP009324531922..533476
STAESAE0159291598006..1599559


Выравнивание последовательностей ДНК, кодирующих 16S рибосомальную РНК программой muscle:
muscle -in dna.fasta -out dna_aligned.fasta
Файл с выравниванием - dna_aligned.fasta

Реконструкция филогенетического дерева:
Матрица расстояний была построенна программой fdnadist, дерево реконструировалось программой fneighbor.

Получившееся дерево:

У этого дерева всего одна правильная ветвь: {CLOB1, THETN, LACAC, STAA1, STAES, GEOKA} vs {BACAN, BACSU}.
Это дерево хуже любого из деревьев, реконструированных по белкам.

2.

Строим дерево гомологов белка CLPX_BACSU, принадлежащих выбранным бактериям:

Создаем индексные файлы для файла proteo.fasta (proteo.fasta - файл, содержащий полные протеомы 17-и бактерий, в число которых входят выбранные) : formatdb -i proteo.fasta -p T -n index
Cоздаем файл с последовательностью белка CLPX_BACSU: seqret sw:clpx_bacsu clpx_bacsu.fasta
Проводим поиск гомологов программой BLASTP: blastall -p blastp -d index -i clpx_bacsu.fasta -o homologs -e 0.001
Вручную создаем list-файл homologs.list с названиями гомологов из выбранных бактерий; создаем fasta-файл с этими гомологами: seqret @homologs.list homologs.fasta
Выравниваем полученные последовательности гомологов: muscle -in homologs.fasta -out homologs_aligned.fasta
Строим дерево программой fprotpars.

Полученное дерево:


Два гомологичных белка называются ортологами, если они а) из разных организмов; б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования.
Примеры пар ортологов:
HSLU_STAES и HSLU_STAA1
CLPX_BACAN и CLPX_BACSU

Два гомологичных белка из одного организма называются паралогами.
Примеры пар парологов:
HSLU_THETN и CLPX_THETN
HSLU_BACAN и CLPX_BACAN
главная страница
©Настя Гуляева, 2009