Практикум 4

Из директории на kodomo, содержащей полные протеомы некоторого числа бактерий, были выбраны 8 бактерий с мнемониками: ACICJ, BARHE, BURMA, NEIMA, POLAQ, PSEMY, SACD2, THIDA. Все протеомы были объединены в один fasta-файл. Этот файл командой makeblastdb был проиндексирован для дальнейшего поиска белка CLPX_ECOLI

Команда для индексирования: makeblastdb -in prot.fasta -dbtype prot -out prot_db

Команда для поиска: blastp -query CLPX_ECOLI.fasta -db prot_db -out all_prot.txt -outfmt 6 -evalue 1e-05

Выдача BLAST

Список находок из выдачи BLAST

Дальше последовательности были выровнены с помощью mafft:

mafft --auto finds_seq.fasta > mafft_seq.fasta

И по выравниванию было реконструировано дерево найденных гомологов с числом реплик бутстрепа 1111:

Рис.1.
Рис. 1. Дерево, построенное при помощи IQ-Tree по последовательностям гомологичных белков отдела Pseudomonadota.

Файл со скобочной формулой Newick

Считая дерево реконструированным верно, выбраны три пары ортологов: CLPX_PSEMY и CLPX_SACD2, CLPX_THIDA и CLPX_BURMA, HSLU_SACD2 и HSLU_BARHE; и три пары паралогов: (CLPX/HSLU)_BURMA, (CLPX/HSLU)_BARHE, (CLPX/HSLU)_PSEMY

Рис.2.
Рис. 2. Филогенетическое дерево, построенное по выравниванию последовательностей гомологичных белков отдела Pseudomonadota и окрашенное в разные цвета по ортологическим группам.

Белки A5FYD7 и Q3SFW1 относятся к HslU, поэтому были покрашены в соответствующий цвет. Если смотреть на рис. 3, то в группу ClpX входят все восемь бактерий, а в группу HslU -- только шесть (не входят -- POLAQ и NEIMA).

Рис.3.
Рис. 3. Филогенетическое дерево, построенное по выравниванию последовательностей гомологичных белков отдела Pseudomonadota со схлопнутыми монофилетическими ортологическими группами. Красным цветом обозначена группа HslU, фиолетовым -- ClpX.

Исходное филогенетическое дерево для выбранных мною видов представлено на рис. 4. Сравнивая его с деревом, построенным по последовательностям гомологичных белков (рис. 2), можно заметить, что деревья сильно различаются. Анализируя группу HslU и учитывая, что в ней нету двух бактерий, различие с исходным деревом заключается лишь в том, что ACICJ оказывается более базальной по мотношению к BARHE (однако, судя по поддержке бутстрепа -- 100, ветвь построена верно). В группе ClpX самую высокую поддержку (98 и 99) имеют правильно построенные ветви. Также ещё одна ветвь, совпадающая с такой же на исходном дереве (POLAQ и BURMA), имеет поддержку всего 73. NEIMA и THIDA также поменялись местами (THIDA стала более базальной относительно её положения на исходном дереве и самой базальной в целом). В целом, низкие значения бутстрепа подтверждают возможную недостоверность.

Рис.4.
Рис. 4. Исходное филогенетическое дерево.