Реконструкция деревьев по нуклеотидным последовательностям. Деревья. содержащие паралоги.
Реконструкция деревьев по нуклеотидным последовательностям.
В Uniprot найдем какие-нибудь белки данных бактерий. Посмотрим на какие записи EMBL с полными геномами они ссылаются. В записях EMBL найдем соответствующие"особенности" (FT), с ключом (FTkey) "rRNA" и описанием примерно /note="16S rRNA". Полученные данные приведены в таблице:
Название | Мнемоника | AC записи EMBL | Координаты РНК | Цепь |
Bacillus anthracis | BACAN | AE016879 | 29129..30635 | Прямая |
Bacillus subtilis | BACSU | AL009126 | 30279..31832 | Прямая |
Clostridium botulinum | CLOB1 | CP000726 | 9282..10783 | Прямая |
Clostridium tetani | CLOTE | AE015927 | 176113..177621 | Прямая |
Finegoldia magna | FINM2 | AP008971 | 197837..199361 | Прямая |
Enterococcus faecalis | ENTFA | AE016830 | 1018187..1019708 | Прямая |
Geobacillus kaustophilus | GEOKA | BA000043 | 30790..32343 | Прямая |
Lactobacillus delbrueckii | LACDA | CR954253 | 45160..46720 | Прямая |
Lactococcus acidophilus | LACAC | CP000033 | 59255..60826 | Прямая |
Далее вырежем нужные участки из записи EMBL командой seqret:
seqret embl:xxxxx -sask
Поместим последовательности в один fasta-файл all.fasta и отредактируем названия последовательностей, оставив только мнемонику видов. Создадим выравнивание отобранных белков. Для этого на kodomo запустим программу muscle с параметрами по умолчанию (т.к. нам не сказано, кк выравнивать) и затем откроем это выравнивание в JalView. Выравнивание в fasta-формате.
muscle -in all.fasta -out align.fasta
Далее построим дерево с помощью программы MEGA (указав Analyze при импорте) методом Neighbor joining (меню "Phylogeny"): (рис. 1)
Рисунок 1. Дерево, построенное с помощью программы MEGA методом Neighbor joining .
Ниже приведено филогенетически правильное дерево (для сравнения, рис.2)
Рисунок 2. Филогенетическое правильное дерево.
Это дерево содержит одну нетривиальную ветвь, которой нет в правильном дереве:
ветвь {BACAN,BACSU,GEOKA,ENTFA} vs {CLOTE,CLOB1,LACDA,LACAC,FINM2},
Это дерево не содержит одну нетривиальную ветвь, что и правильное дерево:
ветвь {LACDA,LACAC,ENTFA} vs {CLOTE,CLOB1,BACAN,BACSU,GEOKA,FINM2},
Видно, что дерево похоже на правильное, но с ним не совподает. Качество построения по rRNA ожидаемо хуже, чем по белкам, потому что кодировать одну аминокислоту можно разными триплетами, и потом вероятность "ошибки" в нуклеотидных последовательностях больше.
Построение и анализ дерева, содержащего паралоги
Нашла в своих бактериях достоверные гомологи белка CLPX_BACSU. Чтобы найти гомологов в заданных организмах, воспользовалась файлом proteo.fasta на диске P, там лежат записи банка UNIPROT, относящиеся к бактериям, перечисленным в таблице к заданию 1. Провела поиск программой blastp гомологов (с порогом на E-value 0,001) и отобрала по мнемонике видов только те находки, которые относятся к отобранным мной бактериям. Сначала проиндексировала файл:
makeblastdb -in proteo.fasta -out prot -dbtype prot
Затем использовала blastp, выравнивая белки с заготовленной заранее fasta белка CLPX_BACSU
blastp -query clpx_bacsu.fasta -db prot -out prot_clpx.txt -evalue 0.001
Получила набор белков prot_clpx.txt и создала файл, содержащий только те находки, которые относятся к отобранным мной бактериям. Полученный файл с выравниванием импортировала в программу MEGA (использовала Neighbor-Joining) и построила дерево.
Рисунок 3. Полученное дерево.
Два гомологичных белка будем называть ортологами, если они а) из разных организмов; б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования. Два гомологичных белка из одного организма будем называть паралогами.
Ортологи: HSLU_GEOKA и HSLU_LISMO, CLPX_STAA1 и CLPX_BACAN.
Некоторые паралоги: Q82YZ7_ETFA и Q837W9_ENTFA, Q899H3_CLOTE и Q891B9_CLOTE, Q5FHW6_LACAC и Q5FKR6_LACAC.