Trees Reconstruction by Nucleic Sequences

Задание 1. Построение дерева по нуклеотидным последовательностям.

Построить филогенетическое дерево тех же бактерий, что в предыдущих заданиях, используя последовательности РНК малой субъединицы рибосомы (16S rRNA).

В Uniprot найдем какие-нибудь белки данных бактерий. Посмотрим на какие записи EMBL с полными геномами они ссылаются. В записях EMBL найдем соответствующие"особенности" (FT), с ключом (FTkey) "rRNA" и описанием примерно /note="16S rRNA". Полученные данные приведены в таблице:

Название Мнемоника AC записи EMBL Координаты РНК Цепь
Bacillus anthracis BACAN AE016879 29129..30635 Прямая
Clostridium botulinum CLOB1 CP000726 9282..10783 Прямая
Finegoldia magna FINM2 AP008971 197837..199361 Прямая
Enterococcus faecalis ENTFA AE016830 1018187..1019708 Прямая
Geobacillus kaustophilus GEOKA BA000043 30790..32343 Прямая
Lactobacillus delbrueckii LACDA CR954253 45160..46720 Прямая
Listeria monocytogenes LISMO AL591981 99187..100732 Обратная
Staphylococcus epidermidis STAES AE015929 1722288..1723841 Обратная

Далее вырежем нужные участки из записи EMBL командой seqret:

seqret embl:xxxxx -sask

Поместим последовательности в один fasta-файл all.fasta и отредактируем названия последовательностей, оставив только мнемонику видов.

Создадим выравнивание отобранных белков. Для этого на kodomo запустим программу muscle с параметрами по умолчанию (т.к. нам не сказано, кк выравнивать) и затем откроем это выравнивание в JalView.

muscle -in all.fasta -out align.fasta


Выравнивание в fasta-формате.

Далее, построим дерево с помощью программы MEGA (указав Analyze при импорте) методом Neighbor joining (меню "Phylogeny"):

Neigbour joining tree of 16S rRNA Верное дерево

Видно, что дерево мало похоже на правильное. Хотя вообще, я ожидала, что качество построения по rRNA будет хуже, чем по белкам. Потому что кодировать одну аминокислоту можно разными триплетами, и потом вероятность "ошибки" в нуклеотидных последовательностях больше.

Задание 2. Построение и анализ дерева, содержащего паралоги.

Найти в своих бактериях достоверные гомологи белка CLPX_BACSU. Построить дерево этих гомологов. Считая дерево реконструированным верно, указать несколько пар ортологов и несколько пар паралогов.

Определение: Два гомологичных белка будем называть ортологами, если они а) из разных организмов; б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования.

Определение: Два гомологичных белка из одного организма будем называть паралогами.

Чтобы найти гомологов в заданных организмах, воспользуемся файлом proteo.fasta на диске P, где лежат записи банка UNIPROT, относящиеся к бактериям, перечисленным в таблице к заданию 1. Проведем поиск программой blastp гомологов (с порогом на E-value 0,001) и отберем по мнемонике видов только те находки, которые относятся к отобранным ранее бактериям (файл с выравниваниями gomolog.txt).

makeblastdb -in proteo.fasta -dbtype prot -out prot
blastp -query clpx_bacsu.fasta -db prot -out gomolog.txt -evalue 0.001

Нашлись такие гомологи:

sw:CLPX_BACAN
sw:CLPX_GEOKA
sw:CLPX_LISMO
sw:CLPX_STAES
sw:CLPX_CLOB1
sw:CLPX_ENTFA
sw:CLPC_STAES
sw:HSLU_GEOKA
sw:HSLU_ENTFA
sw:HSLU_STAES
sw:HSLU_BACAN
trembl:B0S2N5_FINM2
trembl:Q1GAP8_LACDA
trembl:Q5L436_GEOKA
trembl:Q8Y8B1_LISMO
trembl:Q8YAB6_LISMO
trembl:B0S3X9_FINM2
trembl:A7FZ97_CLOB1
trembl:B0S0E3_FINM2
trembl:Q1G869_LACDA
trembl:A7FYT8_CLOB1
trembl:Q1GBM8_LACDA
trembl:Q82YZ7_ENTFA
trembl:Q899H3_CLOTE
trembl:B0S3J0_FINM2
trembl:Q1GBN8_LACDA
trembl:A7FZB1_CLOB1
trembl:Q837W9_ENTFA
trembl:Q5L3T1_GEOKA

Файл с последовательностями proteins1.fasta. Выровняем все последовательности (файл выравнивания align_prot1.fasta) и построим дерево методом neibor-joining.

muscle -in proteins1.fasta -out align_prot1.fasta
Примеры ортологов:
HSLU_ENTFA, HSLU_STAES;
CLPX_GEOKA, CLPX_BACAN;
HSLU_GEOKA, HSLU_BACAN.


Пример паралогов:
BOS3X9_ENTFA, BOS3J0_ENTFA;
Neigbour joining tree (based on ATP-dependent protease ATPase subunit)

Кстати, если постоить дерево родства бактерий по лучшим найденным гомологам, то получается дерево с большой точностью, единственное, поменяны местами две ветви {LACDA,ENTFA} и {CLOB1,FINM2} (т.е. ветвь Clostridiales оказалась роднее к Bacillales, чем Lactobacillales:

Neigbour joining tree (based on ATP-dependent protease ATPase subunit) Верное дерево


Наверх