Анализ деревьев, содержащих паралоги. Особенности работы с нуклеотидными последовательностями.


  1. Построение дерева по нуклеотидным последовательностям

    Построим филогенетическое дерево бактерий из предыдущего задания (см. Реконструкция и сравнение деревьев. Расстояния между последовательностями.), используя последовательности РНК малой субъединицы рибосомы (16S rRNA). Для этого вначале добудем последовательности 16S рибосомальной РНК каждой из бактерий. Для этого найдем в записи EMBL, описывающей полный геном бактерий, участок, соответствующий рРНК 16S, и скопируем его в отдельный файл в fasta-формате. В итоге получаем 7 файлов с 7 последовательностями 16S рибосомиальной РНК: rnaBURCA.fasta, rnaBRAJA.fasta, rnaECOLI.fasta, rnaPROMH.fasta, rnaVIBCH.fasta, rnaVIBFM.fasta, rnaRALPJ.fasta.
    Скопируем все эти последовательности в общий файл 16S.fasta и подадим его на вход программе muscle для множественного выравнивания. Полученный в итоге файл 16S_aligned.fasta пошлем на вход программе fdnaml для реконструкции дерева на основании множественного выравнивания 16S рРНК выбранных бактерий. На выходе имеем файл с изображением дерева 16s_aligned.fdnaml и файл со скобочной формулой этого дерева 16s_aligned.treefile. Посмотрим на изображение дерева:
              +---PROMH     
           +--5  
           |  +-ECOLI     
      +----4  
      |    |  +--VIBFM     
      |    +--3  
      |       +-VIBCH     
      |  
      |   +-BURCA     
      2---1  
      |   +--RALPJ     
      |  
      +--------BRAJA
    Построенное дерево совпадает со всеми полученными ранее деревьями и правильным деревом, если укоренить его по тривиальной ветви {BRAJA}. Скобочная формула дерева выглядит так:
    (((PROMH:0.05500,ECOLI:0.03438):0.02764,(VIBFM:0.04505,VIBCH:0.03310):0.02144):0.07642,(BURCA:0.04168,RALPJ:0.05142):0.06473,BRAJA:0.15558);
    Результат не может не радовать. Ведь реконструкция деревьев по нуклеиновым кислотам дает обычно куда менее правдоподобный результат, чем по белкам, так как генетический код вырожден, то есть каждую аминокислоту могут кодировать разные триплеты, а матрица весов не подразумевает разные штрафы за триплеты, кодирующие одну аминокислоту и разные. В данном случае дерево получилось правильным потому, что в качестве объекта были выбраны последовательности 16S рРНК, которые, естественно, меньше подвержены мутациям, чем мРНК (ведь для рРНК каждая мутация может оказаться критической и, таким образом, не "прижиться" у потомков).

  2. Построение и анализ дерева, содержащего паралоги

    Найдем в выбранных бактериях достоверные гомологи белка FTSH_ECOLI и построим дерево этих гомологов.
    Для этого проведем поиск программой BLASTP (с порогом E-value, равным 0.0001) в файле proteo.fasta и отберем по мнемонике видов только те находки, которые относятся к выбранным бактериям.

    Вначале добудем файл с последовательностью белка FTSH_ECOLI в fasta-формате с помощью команды:
    seqret sw:FTSH_ECOLI
    Сохраним последовательность в файле ftsh_ecoli.fasta. Затем создадим индексные файлы пакета BLAST для поиска по файлу с помощью команды:
    formatdb -i proteo.fasta -p T -n pr
    Теперь проведем поиск гомологов программой BLASTP c порогом E-value, равным 0.0001:
    blastall -p blastp -d pr -i ftsh_ecoli.fasta -o hom.txt -e 0.0001
    На выходе получаем файл hom.txt с перечнем гомологов белка FTSH_ECOLI. Выберем из них те, которые принадлежат выбранным бактериям, и сохраним полученный список в файл hom1.txt. Поместим последовательности гомологов в файл hom1.fasta и подадим его на вход программе muscle. Полученный файл hom1_aligned.fasta подадим программе fprotpars. В результате получаем файл hom1_aligned.fprotpars c изображениями 2 наиболее правдоподобных деревьев гомологов белка FTSH_ECOLI. Рассмотрим одно из них:
                        +-----------------------------------B5FCR8_VIBFM
                        !  
                        !                                +--B2UIS9_RALPJ
                        !                             +-18  
                        !        +-------------------17  +--B2UE66_RALPJ
                        !        !                    !  
                        !        !                    +-----Q1BNJ2_BURCA
         +--------------8        !  
         !              !  +----16                       +--B2UGP9_RALPJ
         !              !  !     !        +-------------11  
         !              !  !     !        !              +--Q1BXC9_BURCA
         !              !  !     !        !  
         !              !  !     !        !              +--B5FA73_VIBFM
         !              !  !     +-------10        +----15  
         !              !  !              !        !     +--Q9KU86_VIBCH
         !              +--9              !     +-14  
         !                 !              !     !  !     +--B4F2B3_PROMH
         !                 !              +----12  +----13  
         !                 !                    !        +--FTSH_ECOLI
      +--6                 !                    !  
      !  !                 !                    +-----------Q9XBG5_BRAJA
      !  !                 !  
      !  !                 !                             +--Q89BR3_BRAJA
      !  !                 +-----------------------------7  
      !  !                                               +--B2U6W7_RALPJ
      !  !  
      !  !                                               +--HSLU_VIBFM
      1  !                                         +-----5  
      !  !                                         !     +--HSLU_VIBCH
      !  !                                      +--4  
      !  !                                      !  !     +--HSLU_PROMH
      !  +--------------------------------------2  +-----3  
      !                                         !        +--HSLU_ECOLI
      !                                         !  
      !                                         +-----------HSLU_RALPJ
      !  
      +-----------------------------------------------------HSLU_BRAJA
    В этом дерево очень четко выделяется поддерево семейства белков HSLU. Поддерево этого семейства в точности повторяет деревья, построенные в других заданиях и правильное дерево (однако, увы, оно не содержит белка HSLU_BURCA). Поэтому, например, белки HSLU_VIBFM и HSLU_VIBCH являются ортологами, так же как и белки HSLU_PROMH и HSLU_ECOLI. Кроме того, в качестве примеров ортологов можно указать белки B2UGP9_RALPJ и Q1BXC9_BURCA, B4F2B3_PROMH и FTSH_ECOLI, Q89BR3_BRAJA и B2U6W7_RALPJ и так далее (ортологами будем называть белки из разных организмов такие, что разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования).
    Паралогами будем называть гомологичные белки из одного организма. Тогда в качестве примеров паралогов можно назвать белки B2UIS9_RALPJ и B2UE66_RALPJ, Q1BNJ2_BURCA и Q1BXC9_BURCA, Q89BR3_BRAJA и Q9XBG5_BRAJA, B5FCR8_VIBFM и B5FA73_VIBFM, FTSH_ECOLI и HSLU_ECOLI и так далее.

Назад