Занятие 4: Реконструкция деревьев по нуклеотидным последовательностям. Анализ деревьев, содержащих паралоги

Построение дерева по нуклеотидным последовательностям

Для отобранных на предыдущем занятии бактерий требуется построить филогенетическое дерево, используя последовательности РНК малой субъединицы рибосомы (16S rRNA). Для этого сначала необходимо найти последовательности 16S рибосомальной РНК каждой из бактерий. Это можно сделать следующим способом. В записи EMBL, описывающей полный геном бактерии, найти соответствующее поле (FT с FTkey rRNA и упоминанием 16S rRNA в примечании). Затем вырезать нужный участок из записи EMBL с использованием программы seqret.

AC записей EMBL и координаты (одной из) 16S rRNA для отобранных бактерий

Название	Мнемоника	AC записи EMBL	Начало	Конец	Последовательность (+/-)
Bacillus subtilis	BACSU	AL009126	30279	31832	+
Clostridium tetani	CLOTE	AE015927	176113	177621	+
Enterococcus faecalis	ENTFA	AE016830	248466	249987	+
Geobacillus kaustophilus	GEOKA	BA000043	10421	11973	+
Lactobacillus delbrueckii	LACDA	CR954253	45160	46720	+
Listeria monocytogenes	LISMO	AL591974	37466	39020	+
Staphylococcus epidermidis	STAES	AE015929	1598006	1599559	-

Полученные описанным выше образом последовательности были сохранены в соответствующем файле, при этом названия последовательностей были отредактированы так, чтобы они отвечали мнемонике организмов. Выравнивание последовательностей было получено с помощью программы JalView (Web Service > Alignment > Muscle with Defaults).

Затем выравнивание было импортировано в программу MEGA (как выравнивание нуклеотидных последовательностей), с помощью которой было построено дерево методом Neighbor-Joining. Полученное дерево приведено на изображении ниже.

Neighbor-Joining

Как видно из сравнения с правильным деревом (приведено на изображении ниже), полученное дерево имеет с ним лишь одну общую нетривиальную ветвь ({LACDA, ENTFA} vs {CLOTE, BACSU, GEOKA, LISMO, STAES}).

Правильное дерево

Попытаться "улучшить" дерево можно, например, с помощью применения бутстрэп-анализа. Ещё один способ — удалить из выравнивания, которое является основой для построения дерева, концевые участки, которые присутствуют не во всех последовательностях и тем самым могут "портить" результат (если таковые вообще имеются). В данном случае было удалено 10 и 35 нуклеотидов с начала и конца выравнивания соответственно. Ни одна из попыток не привела к "улучшению" дерева (то есть его приближению к правильному, например, по количеству общих нетривиальных ветвей).

Neighbor-Joining (Bootstrap consensus)

Neighbor-Joining (Edited)

Таким образом, качество реконструкции дерева по последовательности РНК малой субъединицы рибосомы оказалось ниже по сравнению с деревьями, реконструированными по белкам.

Построение и анализ дерева, содержащего паралоги

Для гомологов белка CLPX_BACSU в отобранных бактериях необходимо построить дерево.

Для поиска гомологов предложен файл proteo.fasta, содержащий записи банка Uniprot, относящиеся к исходному списку бактерий. Поиск гомологов можно произвести с помощью программы blastp, а затем отобрать находки, относящиеся к отобранным бактериям. Последовательность команд для этого приведена ниже.

seqret sw:clpx_bacsu
makeblastdb -in /P/y11/Term_4/proteo.fasta -out proteo -dbtype prot
blastp -query clpx_bacsu.fasta -db proteo -evalue 0.001 -out clpx_blastp.out -outfmt 6
for id in bacsu clote entfa geoka lacda lismo staes; do awk '{ print $2 }' clpx_blastp.out | grep -i $id >> clpx_homologs_ids.txt; done

В файле clpx_homologs_ids.txt получены идентификаторы гомологов белка CLPX_BACSU в отобранных бактериях в том виде, как они приведены в исходном файле proteo.fasta. Т.к. blastp не предоставляет подходящего для наших целей (получение множественного выравнивания) способа отображения результатов работы, то можно поступить следующим образом: с помощью скрипта (использован BioPython) "вытащим" последовательности, соответствующие полученным идентификаторам, из исходного файла proteo.fasta. Привести имена последовательностей в полученном файле clpx_homologs_seqs.fasta к форме белок_вид можно с помощью следующей команды:

sed -ri 's/>.*\|/>/' clpx_homologs_seqs.fasta

Построить выравнивание полученных последовательностей можно, например, с помощью программы muscle:

muscle -in clpx_homologs_seqs.fasta -out clpx_homologs_seqs_aligned.fasta

Полученный файл с выравниванием можно импортировать в программу MEGA, чтобы построить дерево. Ниже приведено дерево, реконструированное на основе выравнивания последовательностей гомологов белка CLPX_BACSU в отобранных бактериях методом Neighbor-Joining.

Neighbor-Joining (CLPX_BACSU homologs)

Если считать, что два гомологичных являются ортологами, если они из разных организмов и разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования, то на построенном дереве ортологами являются, например, CLPX_LISMO и CLPX_BACSU, HSLU_LACDA и HSLU_ENTFA.

Если паралогами называть два гомологичных белка из одного организма, то на основе реконструированного дерева можно сказать, что паралогами являются, например, Q891B9_CLOTE и Q899H3_CLOTE, Q1G869_LACDA и Q1GBM8_LACDA.

Ссылки

< На страницу семестра ∧ Наверх

Учебный сайт

Бредихина Данилы

Занятие 4: Реконструкция деревьев по нуклеотидным последовательностям. Анализ деревьев, содержащих паралоги

Построение дерева по нуклеотидным последовательностям

AC записей EMBL и координаты (одной из) 16S rRNA для отобранных бактерий

Построение и анализ дерева, содержащего паралоги

Ссылки