Trees Reconstruction by Nucleic Sequences |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Задание 1. Построение дерева по нуклеотидным последовательностям.Построить филогенетическое дерево тех же бактерий, что в предыдущих заданиях, используя последовательности РНК малой субъединицы рибосомы (16S rRNA). В Uniprot найдем какие-нибудь белки данных бактерий. Посмотрим на какие записи EMBL с полными геномами они ссылаются. В записях EMBL найдем соответствующие"особенности" (FT), с ключом (FTkey) "rRNA" и описанием примерно /note="16S rRNA". Полученные данные приведены в таблице:
Далее вырежем нужные участки из записи EMBL командой seqret: seqret embl:xxxxx -sask Поместим последовательности в один fasta-файл all.fasta и отредактируем названия последовательностей, оставив только мнемонику видов. Создадим выравнивание отобранных белков. Для этого на kodomo запустим программу muscle с параметрами по умолчанию (т.к. нам не сказано, кк выравнивать) и затем откроем это выравнивание в JalView. muscle -in all.fasta -out align.fasta Далее, построим дерево с помощью программы MEGA (указав Analyze при импорте) методом Neighbor joining (меню "Phylogeny"):
Видно, что дерево мало похоже на правильное. Хотя вообще, я ожидала, что качество построения по rRNA будет хуже, чем по белкам. Потому что кодировать одну аминокислоту можно разными триплетами, и потом вероятность "ошибки" в нуклеотидных последовательностях больше. Задание 2. Построение и анализ дерева, содержащего паралоги.Найти в своих бактериях достоверные гомологи белка CLPX_BACSU. Построить дерево этих гомологов. Считая дерево реконструированным верно, указать несколько пар ортологов и несколько пар паралогов. Определение: Два гомологичных белка будем называть ортологами, если они а) из разных организмов; б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования. Определение: Два гомологичных белка из одного организма будем называть паралогами. Чтобы найти гомологов в заданных организмах, воспользуемся файлом proteo.fasta на диске P, где лежат записи банка UNIPROT, относящиеся к бактериям, перечисленным в таблице к заданию 1. Проведем поиск программой blastp гомологов (с порогом на E-value 0,001) и отберем по мнемонике видов только те находки, которые относятся к отобранным ранее бактериям (файл с выравниваниями gomolog.txt). makeblastdb -in proteo.fasta -dbtype prot -out prot blastp -query clpx_bacsu.fasta -db prot -out gomolog.txt -evalue 0.001 Нашлись такие гомологи: sw:CLPX_BACAN sw:CLPX_GEOKA sw:CLPX_LISMO sw:CLPX_STAES sw:CLPX_CLOB1 sw:CLPX_ENTFA sw:CLPC_STAES sw:HSLU_GEOKA sw:HSLU_ENTFA sw:HSLU_STAES sw:HSLU_BACAN trembl:B0S2N5_FINM2 trembl:Q1GAP8_LACDA trembl:Q5L436_GEOKA trembl:Q8Y8B1_LISMO trembl:Q8YAB6_LISMO trembl:B0S3X9_FINM2 trembl:A7FZ97_CLOB1 trembl:B0S0E3_FINM2 trembl:Q1G869_LACDA trembl:A7FYT8_CLOB1 trembl:Q1GBM8_LACDA trembl:Q82YZ7_ENTFA trembl:Q899H3_CLOTE trembl:B0S3J0_FINM2 trembl:Q1GBN8_LACDA trembl:A7FZB1_CLOB1 trembl:Q837W9_ENTFA trembl:Q5L3T1_GEOKA Файл с последовательностями proteins1.fasta. Выровняем все последовательности (файл выравнивания align_prot1.fasta) и построим дерево методом neibor-joining. muscle -in proteins1.fasta -out align_prot1.fasta
Кстати, если постоить дерево родства бактерий по лучшим найденным гомологам, то получается дерево с большой точностью, единственное, поменяны местами две ветви {LACDA,ENTFA} и {CLOB1,FINM2} (т.е. ветвь Clostridiales оказалась роднее к Bacillales, чем Lactobacillales:
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Наверх |