Анализ деревьев, содержащих паралоги.
Особенности работы с нуклеотидными последовательностями.

1. Построение дерева по нуклеотидным последовательностям

Построим филогенетическое дерево отобранных ранее бактерий, используя последовательности РНК малой субъединицы рибосомы. Последовательности 16S рРНК были получены из EMBL.
После того как все последовательности были перемещены в один файл они были выравнены программой muscle (файл).

C использованием данного выравнивания было построено филогенетическое дерево программой fdnaml, которая выдала файлы: rna_al.fdnaml и rna_al.treefile.

Дерево полученное на выходе:

  +----RHOS4     
  |  
  |             +---PROMH     
  |          +--6  
  |          |  +ECOLI     
  |     +----5  
  |     |    |  +-HAEIN     
  |     |    +--4  
  1-----3       +--PASMU     
  |     |  
  |     |  +----NEIMA     
  |     +--2  
  |        +---BURCA     
  |  
  +---BRAJA     
					

Единственно отличие этого дерева от правильного - это, то что BRAJA и RHOS4 находятся на далеком расстоянии друг от друга. На мой взгляд результат довольно хороший, т.к. постороение деревьев по нуклеотидному коду чаще дают не совсем правильный результат. Однако стоит отметить, что последовательность рРНК очень консервативна. Именно поэтому построенное дерево, с данной последовательностью, является очень близким к правильному дереву.

2. Построение и анализ дерева, содержащего паралоги

Для того, чтобы построить дерево по гомологам белка FTSH_ECOLI из выбранных в первом занятии бактерий необходимо воспользоваться программой BLASTP (с порогом E-value, равным 0.0001) и произвести поиск в файле proteo.fasta после чего отобрать по мнемонике видов белки относящиеся из выбранных бактерий.

Последовательность FTSH_ECOLI была получена командой:

seqret sw:FTSH_ECOLI

Индексные файлы для поиска по файлу были созданы с помощью команды

formatdb -i proteo.fasta -p T -n prlist

После чего был произведен поиск командой

blastall -p blastp -d prlist -i ftsh_ecoli.fasta -o ftsh_hom.txt -e 0.0001

Из полученного файла ftsh_hom.txt был составлен список с названиями белков выбранных бактерий my_hom.txt по которому потом были получены последовательности my_hom.fasta. Данные последовательности были поданы на вход программы muscle, после чего были получены выравнивания hom_al.fasta. По этому выравниванию было построенно дерево с помощью программы fprotpars:

     +--------------------------------------------------Q89KG3_BRA
     !  
     !                                               +--Q1BXC9_BUR
     !           +----------------------------------10  
     !           !                                   +--A1IR46_NEI
     !           !  
     !           !                                   +--FTSH_ECOLI
     !           !     +-----------------------------8  
     !           !     !                             +--B4F2B3_PRO
     !        +--9     !  
     !        !  !     !                             +--HSLU_BRAJA
     !        !  !     !                 +----------18  
     !        !  !     !                 !           +--HSLU_RHOS4
     !        !  !     !                 !  
  +-11        !  !     !              +-17           +--HSLU_ECOLI
  !  !        !  !     !              !  !     +----16  
  !  !        !  +-----7              !  !     !     +--HSLU_PROMH
  !  !        !        !              !  +----15  
  !  !        !        !           +-13        !     +--HSLU_HAEIN
  !  !     +--4        !           !  !        +----14  
  !  !     !  !        !           !  !              +--HSLU_PASMU
  !  !     !  !        !        +-12  !  
  !  !     !  !        !        !  !  +-----------------CLPX_HAEIN
  !  !     !  !        !     +--6  !  
  !  !     !  !        !     !  !  +--------------------FTSH2_HAEI
  1  !  +--3  !        +-----5  !  
  !  !  !  !  !              !  +-----------------------FTSH1_HAEI
  !  !  !  !  !              !  
  !  !  !  !  !              +--------------------------Q9CNJ2_PAS
  !  +--2  !  !  
  !     !  !  +-----------------------------------------Q9XBG5_BRA
  !     !  !  
  !     !  +--------------------------------------------Q3J045_RHO
  !     !  
  !     +-----------------------------------------------Q1BNJ2_BUR
  !  
  +-----------------------------------------------------Q89BR3_BRA

Структура поддерева семейства белка HSLU совпадает с правильным деревом, за исключением того что на ней отсутствует ветвь с организмами NEIMA и BURCA.

Ортологами будем называть два гомологичных белка, если они а) из разных организмов; б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования:
HSLU_RHOS4 и HSLU_RHOS4
HSLU_ECOLI и HSLU_PROMH
HSLU_HAEIN и HSLU_PASMU

Два гомологичных белка из одного организма будем называть паралогами:
FTSH2_HAEIN и FTSH1_HAEIN
Q89BR3_BRAJA и Q9XBG5_BRAJA
Q1BNJ2_BURCA и Q1BXC9_BURCA