Реконструкция по нуклеотидным последовательностям.
Анализ деревьев, содержащих паралоги. Особенности работы с нуклеотидными последовательностями.
Построение дерева по нуклеотидным последовательностям
Строим филогенетическое дерево тех же бактерий, что в предыдущих заданиях, используя последовательности РНК малой субъединицы рибосомы (16S rRNA).
1. Получаем последовательности 16S рибосомальной РНК каждой из выбранных бактерий: rRNA.fasta
,список последовательностей 16S rRNA(list)
2. Выравниваем программой muscle: rRNA_aligned.fasta
3. Получаем матрицу расстояний программой пакета PHYLIP fdnadist: rrna_aligned.fdnadist
Для получения дерева подаем эту матрицу на вход программе fkitsch.
Результат работы fkitsch: rrna_aligned.fkitsch
Построенное дерево(укорененное):
+-STRPN
+-4
+-3 +-STRP1
! !
! +---LACLM
!
--5 +STAES
! +--7
! +-6 +STAA1
! ! !
+-2 +--LISMO
!
! +-LACDA
+--1
+-LACAC
Вспомним, как выглядит правильное дерево

Как видно, дерево очень похоже на правильное, совпадает большинство ветвей, только оно укоренено неверно.
так же я построила деревья с помощью алгоритма Фитча – Марголиаша(ffitch) и Neighbor-Joining(fneighbor)
+-LACDA
+-LACDA !
! ! +---LACLM
! +STAES ! +-4
! +--6 ! ! ! +-STRP1
! +-5 +STAA1 ! ! +-3
! ! ! 2--5 +-STRPN
! ! +-LISMO ! !
1--4 ! ! +-LISMO
! ! +STRPN ! +-6
! ! +-3 ! ! +STAA1
! +-2 +STRP1 ! +--1
! ! ! +STAES
! +---LACLM !
! +-LACAC
+-LACAC
эти 2 дерева оказались абсолютно верными, но они не укоренены. По белкам деревья были гораздо хуже, но в общем случае возможно это не так
Построение и анализ дерева, содержащего паралоги
Найдем в выбранных бактериях достоверные гомологи белка CLPX_BACSU.
Чтобы найти гомологов в заданных организмах, воспользуемся файлом proteo.fasta,
где лежат записи банка UniProt, относящиеся к протеобактериям, перечисленным в таблице к заданию 1.
1.Создаем индексные файлы для поиска по файлу proteo.fasta.
2.Необходимо провести поиск программой BLASTP гомологов (с порогом на E-value=0,001) и отобрать по мнемонике видов только те находки, которые относятся к отобранным бактериям.
Результат поиска blastp.out
Затем выравниваем полученные последовательности программой muscle: gomologs_aligned.fasta
Строим матрицу расстояний программой fprotdist: gomologs_aligned.fprotdist
Подаем этот файл на вход программе fneighbor: gomologs_aligned.fneighbor
Дерево гомологов:
+---HSLU_LACAC
+----2
! +---HSLU_LACDA
+-----------------4
! ! +-------HSLU_LISMO
! +--3
! ! +-HSLU_STAA1
! +--------1
! +HSLU_STAES
!
! +-------------------------------------------------------FTSH_STRPN
! !
! ! +----CLPX_LACLM
5--6 +-10
! ! ! ! +-CLPX_STRP1
! ! ! +-9
! +----------11 +---CLPX_STRPN
! !
! ! +------CLPX_LISMO
! +-8
! ! +CLPX_STAA1
! +----7
! +CLPX_STAES
!
+----------------------------------------------CLPC_STAES
Два гомологичных белка будем называть ортологами, если они:
а) из разных организмов;
б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования.
Два гомологичных белка из одного организма будем называть паралогами.
Можно определить, считая, что дерево реконструировано верно:
5 ортологов белка HSLU и 6 ортологов CLPX,чье разделение в результате видообразование подтверждается топологией правильного дерева.
к паралогам можно отнести:
CLPX_STAA1 HSLU_STAA1
CLPX_STAES CLPX_STAES CLPC_STAES
CLPX_LISMO HSLU_LISMO
CLPX_STRPN FTSH_STRPN
© Garanina Irina