Практикум 4

Обзор:

В ходе данного практикума была проведена филогенетическая реконструкция дерева гомологов АТФ-связующей субъединицы ClpX АТФ-зависимой Clp-протеазы из Escherichia coli, а также проведен анализ полученного дерева.

1. Составление списка гомологичных белков, включающих паралоги

Из 15 протеомов бактерий отдела Pseudomonadota мной были выбраны 7 протеомов: ACICJ.fasta ; BARHE.fasta ; BRUSU.fasta ; BURMA.fasta ; PASMU.fasta ; POLAQ.fasta ; ROSDO.fasta (выбирал по звучанию мнемоник).
Все последовательности были собраны в один файл:

cat ACICJ.fasta BARHE.fasta BRUSU.fasta BURMA.fasta PASMU.fasta POLAQ.fasta ROSDO.fasta > base.fasta

На основе этого файла была создана локальная база данных для запуска blastp:

makeblastdb -in base.fasta -dbtype prot

Затем для поиска гомологичных белков был запущен blastp. В качестве поискового запроса использовалась последовательность CLPX_ECOLI (белок из E. coli) (ссылка)
Для отбора достоверных находок установлен разумный порог на E-value = 0.0001:

blastp -task blastp -query CLPX_ECOLI.fasta -db base.fasta -out blast.out -evalue 0.0001

В результате был получен список находок.

2. Реконструкция и визуализация

Затем последовательности находок были собраны в один fasta-файл, а их названия были отредактированы так, что остались только ID (для удобства последующей визуализации дерева). После было проведено множественное выравнивание с помощью программы muscle с параметрами по-умолчанию. После преобразования в формат .phy на основе выравнивания была проведена филогенетическая реконструкция с использованием программы fastme с моделью MtREV и 100 бутстреп-реплик.

Дерево в формате Newick

Рис. 1. Реконструкция дерева найденных гомологов белков бактерий отдела Pseudomonadota. Укоренение в среднюю точку. Визуализированно с помощью программы iTOL

Три пары паралогов: HSLU_BURMA и CLPX_BURMA, HSLU_PASMU и CLPX_PASMU, RUVB_BARHE и HSLU_BARHE
Три пары ортологов: HSLU_PASMU и HSLU_BURMA, HSLU_BARHE и HSLU_BRUSU, CLPX_BARHE и CLPX_BRUSU

Рис. 2. Реконструкция дерева найденных гомологов белков бактерий отдела Pseudomonadota. Цветами обозначены ортологические группы. Последовательность A5FYD7_ACICJ попала в правильную ортологическую группу (я проверил её полное название в выдаче blast). Самая базальная ортологическая группа соответствует белку "ATP-dependent zinc metalloprotease FtsH..".

Рис. 3. Реконструкция дерева найденных гомологов белков бактерий отдела Pseudomonadota. Цветами обозначены ортологические группы. Ортологические группы с более чем тремя последовательностями были схлопнуты.
В ортологической группе "ATP-dependent zinc metalloprotease FtsH.." (голубая) содержатся последовательности 4 из 7 организмов. Реконструированная филогения не соотвествует филогении бактерий.
В ортологической группе HSLU (сиреневая) содержатся последовательности 6 из 7 организмов (все кроме POLAQ). Реконструированная филогения частично соотвествует филогении бактерий (некоторые организмы объединены в клады правильно, но общее расположение клад друг относительно друга неверно).
В ортологической группе CLPX (зеленая) содержатся последовательности 7 из 7 организмов. Реконструированная филогения частично соотвествует филогении бактерий (некоторые организмы объединены в клады правильно, но общее расположение клад друг относительно друга неверно).