Реконструкция по нуклеотидным последовательностям.


Анализ деревьев, содержащих паралоги. Особенности работы с нуклеотидными последовательностями.

Построение дерева по нуклеотидным последовательностям


Строим филогенетическое дерево тех же бактерий, что в предыдущих заданиях, используя последовательности РНК малой субъединицы рибосомы (16S rRNA).
1. Получаем последовательности 16S рибосомальной РНК каждой из выбранных бактерий: rRNA.fasta ,список последовательностей 16S rRNA(list)
2. Выравниваем программой muscle: rRNA_aligned.fasta
3. Получаем матрицу расстояний программой пакета PHYLIP fdnadist: rrna_aligned.fdnadist
Для получения дерева подаем эту матрицу на вход программе fkitsch.
Результат работы fkitsch: rrna_aligned.fkitsch

Построенное дерево(укорененное):
  
                                                                                                                                                                                                                                                                          
      +-STRPN                                                                                                  
    +-4                                                                                                        
  +-3 +-STRP1                                                                                                  
  ! !                                                                                                          
  ! +---LACLM                                                                                                  
  !                                                                                                            
--5      +STAES                                                                                                
  !   +--7                                                                                                     
  ! +-6  +STAA1                                                                                                
  ! ! !                                                                                                        
  +-2 +--LISMO                                                                                                 
    !                                                                                                          
    !  +-LACDA                                                                                                 
    +--1                                                                                                       
       +-LACAC                                                                                                 
Вспомним, как выглядит правильное дерево

Как видно, дерево очень похоже на правильное, совпадает большинство ветвей, только оно укоренено неверно.
так же я построила деревья с помощью алгоритма Фитча – Марголиаша(ffitch) и Neighbor-Joining(fneighbor)
  
                       +-LACDA                                                                                                                                                                                                                                                                                                         
  +-LACDA              !                                                                                                                                                                                                       
  !                    !    +---LACLM                                                                                                                                                                                          
  !       +STAES       !  +-4                                                                                                                                                                                                  
  !    +--6            !  ! ! +-STRP1                                                                                                                                                                                          
  !  +-5  +STAA1       !  ! +-3                                                                                                                                                                                                
  !  ! !               2--5   +-STRPN                                                                                                                                                                                          
  !  ! +-LISMO         !  !                                                                                                                                                                                                    
  1--4                 !  ! +-LISMO                                                                                                                                                                                            
  !  !   +STRPN        !  +-6                                                                                                                                                                                                  
  !  ! +-3             !    !  +STAA1                                                                                                                                                                                          
  !  +-2 +STRP1        !    +--1                                                                                                                                                                                               
  !    !               !       +STAES                                                                                                                                                                                          
  !    +---LACLM       !                                                                                                                                                                                                       
  !                    +-LACAC                                                                                                                                                                                                 
  +-LACAC                                                                                                                                                                                                                      

эти 2 дерева оказались абсолютно верными, но они не укоренены. По белкам деревья были гораздо хуже, но в общем случае возможно это не так

Построение и анализ дерева, содержащего паралоги

Найдем в выбранных бактериях достоверные гомологи белка CLPX_BACSU.
Чтобы найти гомологов в заданных организмах, воспользуемся файлом proteo.fasta, где лежат записи банка UniProt, относящиеся к протеобактериям, перечисленным в таблице к заданию 1.
1.Создаем индексные файлы для поиска по файлу proteo.fasta.
2.Необходимо провести поиск программой BLASTP гомологов (с порогом на E-value=0,001) и отобрать по мнемонике видов только те находки, которые относятся к отобранным бактериям.
Результат поиска blastp.out

Затем выравниваем полученные последовательности программой muscle: gomologs_aligned.fasta
Строим матрицу расстояний программой fprotdist: gomologs_aligned.fprotdist
Подаем этот файл на вход программе fneighbor: gomologs_aligned.fneighbor
Дерево гомологов:
                                                                                                                                                                                                        
                                                                                                                                                                                                                               
                                                                                                                                                                                                                               
                        +---HSLU_LACAC                                                                                                                                                                                         
                   +----2                                                                                                                                                                                                      
                   !    +---HSLU_LACDA                                                                                                                                                                                         
 +-----------------4                                                                                                                                                                                                           
 !                 !  +-------HSLU_LISMO                                                                                                                                                                                       
 !                 +--3                                                                                                                                                                                                        
 !                    !        +-HSLU_STAA1                                                                                                                                                                                    
 !                    +--------1                                                                                                                                                                                               
 !                             +HSLU_STAES                                                                                                                                                                                     
 !                                                                                                                                                                                                                             
 !  +-------------------------------------------------------FTSH_STRPN                                                                                                                                                         
 !  !                                                                                                                                                                                                                          
 !  !              +----CLPX_LACLM                                                                                                                                                                                             
 5--6           +-10                                                                                                                                                                                                           
 !  !           !  ! +-CLPX_STRP1                                                                                                                                                                                              
 !  !           !  +-9                                                                                                                                                                                                         
 !  +----------11    +---CLPX_STRPN                                                                                                                                                                                            
 !              !                                                                                                                                                                                                              
 !              ! +------CLPX_LISMO                                                                                                                                                                                            
 !              +-8                                                                                                                                                                                                            
 !                !    +CLPX_STAA1                                                                                                                                                                                             
 !                +----7                                                                                                                                                                                                       
 !                     +CLPX_STAES                                                                                                                                                                                             
 !                                                                                                                                                                                                                             
 +----------------------------------------------CLPC_STAES                                                                                                                                                                     
                                                                                                                                                                                                                               
Два гомологичных белка будем называть ортологами, если они:
а) из разных организмов;
б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования.
Два гомологичных белка из одного организма будем называть паралогами.
Можно определить, считая, что дерево реконструировано верно:
5 ортологов белка HSLU и 6 ортологов CLPX,чье разделение в результате видообразование подтверждается топологией правильного дерева.
к паралогам можно отнести:
CLPX_STAA1 HSLU_STAA1
CLPX_STAES CLPX_STAES CLPC_STAES
CLPX_LISMO HSLU_LISMO
CLPX_STRPN FTSH_STRPN

© Garanina Irina