Филогенетические деревья.


Знакомство


Отобранные бактерии


НазваниеМнемоника
Lactobacillus acidophilusLACAC
Lactobacillus delbrueckiiLACDA
Lactococcus lactisLACLM
Listeria monocytogenesLISMO
Staphylococcus aureusSTAA1
Staphylococcus epidermidisSTAES
Streptococcus pyogenesSTRP1
Streptococcus pneumoniaeSTRPN


Скобочная формула



(((LACDA,LACAC),(LACLM,(STRP1,STRPN))),(LISMO,(STAA1,STAES)))

Изображение дерева





Ветви дерева


{LACDA,LACAC}против{LACLM,STRP1,STRPN,LISMO,STAA1,STAES}
{LACDA,LACAC,LACLM,STRP1,STRPN,LISMO}против{STAA1,STAES}
{LACDA,LACAC,LACLM,STRP1,STRPN}против{LISMO,STAA1,STAES}
{STRP1,STRPN}против{LACDA,LACAC,LACLM,LISMO,STAA1,STAES}
{LACDA,LACAC,LACLM}против{STRP1,STRPN,LISMO,STAA1,STAES}

Занятие 2


1.
Информация (xlsx) о таксономической принадлежности выбранных бактерий.
Основываясь на этих данных следующим ветвям можно присвоить таксономические единицы:

Для реконструкции филогенетического дерева я выбрала фактор элонгации трансляции 4 LEPA.
Для получения последовательности создалa файл-список sw индентификаторов белка по выбранным оргнизмам, и командой:
seqret data.list data.fasta
получилa последовательности белков в файле data.fasta.

Выравнивание (fasta и msf) отобранных белков
Выравнивание получила muscle -in data.fasta -out data_aligned.fasta

5.Fprotpars (реконструкция дерева)

fprotpars data_aligned.fasta -outtreefile data.treefile -outfile data.fprotpars



Программа выдала 1 дерево: ((((((LEPA_STRPN,LEPA_STRP1),LEPA_LACLM),LEPA_LISMO),(LEPA_STAES,LEPA_STAA1)),LEPA_LACDA),LEPA_LACAC);

Реконструированное дерево на основе белка LEPA Верное дерево
Дерево содержит 5 нетривильных ветвей:
1) {LACDA,LACAC}{LACLM,STRP1,STRPN,LISMO,STAA1,STAES}
2) {LACLM,STRP1,STRPN}{LISMO,STAA1,STAES,LACDA,LACAC}
3) {LACDA,LACAC,LACLM,STRP1,STRPN}{LISMO,STAA1,STAES}
4) {STRP1,STRPN}{LACDA,LACAC,LACLM,LISMO,STAA1,STAES}
5) {LACLM,STRP1,STRPN,LISMO}{STAA1,STAES,LACDA,LACAC}
Дерево содержит 5 нетривиальных ветвей:
1) {LACDA,LACAC}{LACLM,STRP1,STRPN,LISMO,STAA1,STAES}
2) {LACDA,LACAC,LACLM,STRP1,STRPN,LISMO}{STAA1,STAES}
3) {LACDA,LACAC,LACLM,STRP1,STRPN}{LISMO,STAA1,STAES}
4) {STRP1,STRPN}{LACDA,LACAC,LACLM,LISMO,STAA1,STAES}
5) {LACDA,LACAC,LACLM}{STRP1,STRPN,LISMO,STAA1,STAES}


Таким образом совпали только 3 ветви.

6. Fprotdist (эволюционные расстояния)

fprotdist data_aligned.fasta -outfile data_aligned.fprotdist


LEPA_LACAC  0.000000  0.120965  0.511411  0.529388  0.472016  0.465410  0.472017  0.465501 
                                                                                           
LEPA_LACDA  0.120965  0.000000  0.536555  0.544579  0.480280  0.496027  0.501466  0.485074 
                                                                                           
LEPA_STAA1  0.511411  0.536555  0.000000  0.058556  0.287459  0.324185  0.326088  0.314696 
                                                                                           
LEPA_STAES  0.529388  0.544579  0.058556  0.000000  0.283476  0.317151  0.337945  0.329237 
                                                                                           
LEPA_LISMO  0.472016  0.480280  0.287459  0.283476  0.000000  0.228005  0.254669  0.244084 
                                                                                           
LEPA_LACLM  0.465410  0.496027  0.324185  0.317151  0.228005  0.000000  0.128817  0.133332 
                                                                                           
LEPA_STRP1  0.472017  0.501466  0.326088  0.337945  0.254669  0.128817  0.000000  0.080944 
                                                                                           
LEPA_STRPN  0.465501  0.485074  0.314696  0.329237  0.244084  0.133332  0.080944  0.000000 


Ультраметричноcть:
1. d(LACLM,STRPN)=0.133332>d(STRP1,STRPN)=0.080944
d(LACLM,STRPN)=0.133332!=d(STRP1,LACLM)=0.128817

2. d(LACAC,STRPN)=0.465501>d(STAA1,STRPN)=0.314696
d(LACAC,STRPN)=0.465501!=d(LACAC,STAA1)=0.511411
Это дерево, значит,не подчиняется критерию ультраметричности

Аддитивность:
для STRPN,LACLM,LACDA,STAES получились 3 такие суммы: 0.677911, 0.8022252, 0.825264
из этого можно сделать вывод, что свойство аддитивности почти выполняется, так как последние 2 суммы отличаются всего на 2 сотых друг от друга/

7. Fneighbor (Реконструкция деревьев)

fneighbor data_aligned.fprotdist -treetype u/n -trout data_aligned.fneighbor -outtreefile data_aligned.treefile


UPGMANeighbor-Joining
                            
             +---LEPA_LACAC 
  +----------3              
  !          +---LEPA_LACDA 
  !                         
--7            +-LEPA_STAA1 
  !    +-------1            
  !    !       +-LEPA_STAES 
  +----6                    
       !  +------LEPA_LISMO 
       +--5                 
          !  +---LEPA_LACLM 
          +--4              
             ! +--LEPA_STRP1
             +-2            
               +--LEPA_STRPN  
    
                                           
                                           
  +---LEPA_LACDA                           
  !                                        
  !                           +LEPA_STAA1  
  !                  +--------2            
  !                +-5        +-LEPA_STAES 
  !                ! !                     
  !                ! +-----LEPA_LISMO      
  1----------------6                       
  !                !   +---LEPA_LACLM      
  !                +---4                   
  !                    ! +--LEPA_STRP1     
  !                    +-3                 
  !                      +-LEPA_STRPN      
  !                                        
  +--LEPA_LACAC                            
    
From     To            Length          Height  
----     --            ------          ------  
   7        3          0.18784         0.18784 
   3     LEPA_LACAC    0.06048         0.24832 
   3     LEPA_LACDA    0.06048         0.24832 
   7        6          0.09081         0.09081 
   6        1          0.12824         0.21904 
   1     LEPA_STAA1    0.02928         0.24832 
   1     LEPA_STAES    0.02928         0.24832 
   6        5          0.03639         0.12720 
   5     LEPA_LISMO    0.12113         0.24832 
   5        4          0.05559         0.18278 
   4     LEPA_LACLM    0.06554         0.24832 
   4        2          0.02507         0.20785 
   2     LEPA_STRP1    0.04047         0.24832 
   2     LEPA_STRPN    0.04047         0.24832 
      
    
 
Between        And            Length 
-------        ---            ------ 
   1          LEPA_LACDA      0.07117
   1             6            0.29098
   6             5            0.00912
   5             2            0.14832
   2          LEPA_STAA1      0.02644
   2          LEPA_STAES      0.03212
   5          LEPA_LISMO      0.10787
   6             4            0.06387
   4          LEPA_LACLM      0.06087
   4             3            0.02973
   3          LEPA_STRP1      0.04392
   3          LEPA_STRPN      0.03703
   1          LEPA_LACAC      0.04980
 
   
{LACDA,LACAC}{LACLM,STRP1,STRPN,LISMO,STAA1,STAES}
{LACLM,STRP1,STRPN}{LISMO,STAA1,STAES,LACDA,LACAC}
{LACDA,LACAC,LACLM,STRP1}{STRPN,LISMO,STAA1,STAES}
{STRP1,STRPN}{LACDA,LACAC,LACLM,LISMO,STAA1,STAES}
{LACLM,STRP1,STRPN,LISMO}{STAA1,STAES,LACDA,LACAC}
{LACDA,LACAC}{LACLM,STRP1,STRPN,LISMO,STAA1,STAES}
{LACLM,STRP1,STRPN}{LISMO,STAA1,STAES,LACDA,LACAC}
{LACDA,LACAC,LACLM,STRP1,STRPN}{LISMO,STAA1,STAES}
{STRP1,STRPN}{LACDA,LACAC,LACLM,LISMO,STAA1,STAES}
{LACLM,STRP1,STRPN,LISMO}{STAA1,STAES,LACDA,LACAC}


Сравнение этих 2 деревьев с верным деревом и деревом, построенным по выравниванию.


1.Нетривиальные ветви.
Оба алгоритма UPGMA(далее U) и Neighbor-Joining(далее NJ) очень четко воспроизвели нетривиальные ветви, первое дерево совпало с верным
по 4 ветвям, а второе полностью. Так же можно отметить немколько ветвей, воспроизводимых всеми алгоритмами это:
{LACDA,LACAC}{LACLM,STRP1,STRPN,LISMO,STAA1,STAES}
{STRP1,STRPN}{LACDA,LACAC,LACLM,LISMO,STAA1,STAES}
{LACLM,STRP1,STRPN}{LISMO,STAA1,STAES,LACDA,LACAC}
А эта ветвь была найдена только вдереве построенном по выравниванию и U, которые меньше всего похожи на верное дерево.
{LACLM,STRP1,STRPN,LISMO}{STAA1,STAES,LACDA,LACAC}

2.Оценим ультраметричность и аддитивность U и NJ:
возьмем те же бактерии.
1. d(LACLM,STRPN)=0.13108>d(STRP1,STRPN)=0.08094
d(LACLM,STRPN)=0.133108=d(STRP1,LACLM)=0.13108

2. d(LACAC,STRPN)=0.49665>d(STAA1,STRPN)=0.31504
d(LACAC,STRPN)=0.49665=d(LACAC,STAA1)=0.49665
для U,как видно, ультраметричность выполняется, что и не удивительно, так как этот алгоритм учитывает молекулярные часы.

1. d(LACLM,STRPN)=0.12763>d(STRP1,STRPN)=0.08095
d(LACLM,STRPN)=0.13452!=d(STRP1,LACLM)=0.12763

2. d(LACAC,STRPN)=0.47141>d(STAA1,STRPN)=0.31451
d(LACAC,STRPN)!=0.52466=d(LACAC,STAA1)=0.47141
Для NJ дерева ультраметричность не выполняется.

для STRPN,LACLM,LACDA,STAES получились 3 такие суммы: 0.62773, 0.81169, 0.82261 для U и 0.67937, 0.80708, 0.80761 для NJ
видно, что для этих 2 деревьев выполнено свойство аддитивности.


Сравниваядеревья, полученные разными способами можно сказать, что строить по 1 белку дерево не очень надежно, лучше взять несколько консервативных белков.
Так же можно комбинировать информацию, полученную обоими алгоритмами, так как Nj не укореняет дерево, но не смотря на это по нетривиальным ветвям этот алгоритм лучше(хотя судить по 1 примеру тоже не очень объективно)
© Garanina Irina