Реконструкция деревьев. Деревья. содержащие паралоги.

Реконструкция деревьев по нуклеотидным последовательностям. Деревья. содержащие паралоги.

Реконструкция деревьев по нуклеотидным последовательностям.

В Uniprot найдем какие-нибудь белки данных бактерий. Посмотрим на какие записи EMBL с полными геномами они ссылаются. В записях EMBL найдем соответствующие"особенности" (FT), с ключом (FTkey) "rRNA" и описанием примерно /note="16S rRNA". Полученные данные приведены в таблице:

Название	Мнемоника	AC записи EMBL	Координаты РНК	Цепь
Bacillus anthracis	BACAN	AE016879	29129..30635	Прямая
Bacillus subtilis	BACSU	AL009126	30279..31832	Прямая
Clostridium botulinum	CLOB1	CP000726	9282..10783	Прямая
Clostridium tetani	CLOTE	AE015927	176113..177621	Прямая
Finegoldia magna	FINM2	AP008971	197837..199361	Прямая
Enterococcus faecalis	ENTFA	AE016830	1018187..1019708	Прямая
Geobacillus kaustophilus	GEOKA	BA000043	30790..32343	Прямая
Lactobacillus delbrueckii	LACDA	CR954253	45160..46720	Прямая
Lactococcus acidophilus	LACAC	CP000033	59255..60826	Прямая

Далее вырежем нужные участки из записи EMBL командой seqret:

seqret embl:xxxxx -sask

Поместим последовательности в один fasta-файл all.fasta и отредактируем названия последовательностей, оставив только мнемонику видов. Создадим выравнивание отобранных белков. Для этого на kodomo запустим программу muscle с параметрами по умолчанию (т.к. нам не сказано, кк выравнивать) и затем откроем это выравнивание в JalView. Выравнивание в fasta-формате.

muscle -in all.fasta -out align.fasta

Далее построим дерево с помощью программы MEGA (указав Analyze при импорте) методом Neighbor joining (меню "Phylogeny"): (рис. 1)

Рисунок 1. Дерево, построенное с помощью программы MEGA методом Neighbor joining .

Ниже приведено филогенетически правильное дерево (для сравнения, рис.2)

Рисунок 2. Филогенетическое правильное дерево.

Это дерево содержит одну нетривиальную ветвь, которой нет в правильном дереве:

ветвь {BACAN,BACSU,GEOKA,ENTFA} vs {CLOTE,CLOB1,LACDA,LACAC,FINM2},

Это дерево не содержит одну нетривиальную ветвь, что и правильное дерево:

ветвь {LACDA,LACAC,ENTFA} vs {CLOTE,CLOB1,BACAN,BACSU,GEOKA,FINM2},

Видно, что дерево похоже на правильное, но с ним не совподает. Качество построения по rRNA ожидаемо хуже, чем по белкам, потому что кодировать одну аминокислоту можно разными триплетами, и потом вероятность "ошибки" в нуклеотидных последовательностях больше.

Построение и анализ дерева, содержащего паралоги

Нашла в своих бактериях достоверные гомологи белка CLPX_BACSU. Чтобы найти гомологов в заданных организмах, воспользовалась файлом proteo.fasta на диске P, там лежат записи банка UNIPROT, относящиеся к бактериям, перечисленным в таблице к заданию 1. Провела поиск программой blastp гомологов (с порогом на E-value 0,001) и отобрала по мнемонике видов только те находки, которые относятся к отобранным мной бактериям. Сначала проиндексировала файл:

makeblastdb -in proteo.fasta -out prot -dbtype prot

Затем использовала blastp, выравнивая белки с заготовленной заранее fasta белка CLPX_BACSU

blastp -query clpx_bacsu.fasta -db prot -out prot_clpx.txt -evalue 0.001

Получила набор белков prot_clpx.txt и создала файл, содержащий только те находки, которые относятся к отобранным мной бактериям. Полученный файл с выравниванием импортировала в программу MEGA (использовала Neighbor-Joining) и построила дерево.

Рисунок 3. Полученное дерево.

Два гомологичных белка будем называть ортологами, если они а) из разных организмов; б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования. Два гомологичных белка из одного организма будем называть паралогами.

Ортологи: HSLU_GEOKA и HSLU_LISMO, CLPX_STAA1 и CLPX_BACAN.

Некоторые паралоги: Q82YZ7_ETFA и Q837W9_ENTFA, Q899H3_CLOTE и Q891B9_CLOTE, Q5FHW6_LACAC и Q5FKR6_LACAC.