Реконструкция деревьев по нуклеотидным последовательностям. Анализ деревьев, содержащих паралоги.
1. Реконструкция деревьев по нуклеотидным последовательностям.
В Uniprot найдем какие-нибудь белки данных бактерий. Посмотрим на какие записи EMBL с полными
геномами они ссылаются. В записях EMBL найдем соответствующие"особенности" (FT), с ключом
(FTkey) "rRNA" и описанием примерно /note="16S rRNA". Полученные данные приведены в таблице:
Название |
Мнемоника |
AC записи EMBL |
Координаты РНК |
Цепь |
Bacillus anthracis |
BACAN |
AE016879 |
29129..30635 |
Прямая |
Bacillus subtilis |
BACsu |
AL009126 |
30279..31832 |
Прямая |
Clostridium botulinum |
CLOB1 |
CP000726 |
9282..10783 |
Прямая |
Clostridium tetani |
CLOTE |
AE015927 |
176113..177621 |
Прямая |
Finegoldia magna |
FINM2 |
AP008971 |
197837..199361 |
Прямая |
Enterococcus faecalis |
ENTFA |
AE016830 |
1018187..1019708 |
Прямая |
Geobacillus kaustophilus |
GEOKA |
BA000043 |
30790..32343 |
Прямая |
Lactobacillus delbrueckii |
LACDA |
CR954253 |
45160..46720 |
Прямая |
Lactococcus acidophilus |
LACAC |
CP000033 |
59255..60826 |
Прямая |
Далее вырежем нужные участки из записи EMBL командой seqret:
seqret embl:xxxxx -sask
Поместим последовательности в один fasta-файл all.fasta
и отредактируем названия последовательностей, оставив только мнемонику видов.
Создадим выравнивание отобранных белков. Для этого на kodomo запустим программу muscle
с параметрами по умолчанию (т.к. нам не сказано, кк выравнивать) и затем откроем это
выравнивание в JalView.
muscle -in all.fasta -out align.fasta
Выравнивание в fasta-формате.
Далее, построим дерево с помощью программы MEGA (указав Analyze при импорте) методом
Neighbor joining (меню "Phylogeny"):
Правильное дерево
Это дерево содержит 1 нетривиальных ветвей, которых нет в правильное дерево:
ветвь {BACAN,BACSU,GEOKA,ENTFA} против {CLOTE,CLOB1,LACDA,LACAC,FINM2},
Это дерево не содержит 1 нетривиальных ветвей, что и правильное дерево:
ветвь {LACDA,LACAC,ENTFA} против {CLOTE,CLOB1,BACAN,BACSU,GEOKA,FINM2},
Видно, что дерево похоже на правильное, но с ним не совподает. Я ожидала, что качество построения по rRNA будет
хуже, чем по белкам. Потому что кодировать одну аминокислоту можно разными триплетами, и
потом вероятность "ошибки" в нуклеотидных последовательностях больше.
1. Построение и анализ дерева, содержащего паралоги
Нашла в своих бактериях достоверные гомологи белка CLPX_BACSU.
Чтобы найти гомологов в заданных организмах, воспользовалась файлом proteo.fasta на диске P, там лежат записи банка UNIPROT, относящиеся к бактериям, перечисленным в таблице к заданию 1.
Провела поиск программой blastp гомологов (с разумным порогом на E-value, скажем, 0,001) и отобрала по мнемонике видов только те находки, которые относятся к отобранным мною бактериям.
Сначала проиндексировала файл:
makeblastdb -in proteo.fasta -out prot -dbtype prot
Затем использовала blastp, выравнивая белки с заготовленной заранее fasta белка CLPX_BACSU
blastp -query clpx_bacsu.fasta -db prot -out prot_clpx.txt -evalue 0.001
Получила набор белков prot_clpx.txt
И создала файл, содержащий только те находки, которые относятся к отобранным мною бактериям.
clpx_homologs.fasta
Полученный файл с выравниванием импортировала в программу MEGA(использовала Neighbor-Joining).
Полученное дерево
Два гомологичных белка будем называть ортологами, если они а) из разных организмов; б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования.
Два гомологичных белка из одного организма будем называть паралогами.
Ортологи: HSLU_GEOKA и HSLU_LISMO, CLPX_STAA1 и CLPX_BACAN.
Некоторые паралоги:Q82YZ7_ETFA и Q837W9_ENTFA, Q899H3_CLOTE и Q891B9_CLOTE, Q5FHW6_LACAC и Q5FKR6_LACAC.
© Julia Chudakova