Обзор:
В ходе данного практикума была проведена филогенетическая реконструкция
дерева гомологов АТФ-связующей субъединицы ClpX АТФ-зависимой Clp-протеазы
из Escherichia coli, а также проведен анализ полученного дерева.
1. Составление списка гомологичных белков, включающих паралоги
Из 15 протеомов бактерий отдела Pseudomonadota мной были выбраны 7 протеомов:
ACICJ.fasta ; BARHE.fasta ; BRUSU.fasta ; BURMA.fasta ; PASMU.fasta ;
POLAQ.fasta ; ROSDO.fasta
(выбирал по звучанию мнемоник).
Все последовательности были собраны в один файл:
cat ACICJ.fasta BARHE.fasta BRUSU.fasta BURMA.fasta
PASMU.fasta POLAQ.fasta ROSDO.fasta > base.fasta
На основе этого файла была создана
локальная база данных для запуска blastp:
makeblastdb -in base.fasta -dbtype prot
Затем для поиска гомологичных белков был запущен blastp.
В качестве поискового запроса использовалась последовательность
CLPX_ECOLI (белок из E. coli)
(ссылка)
Для отбора достоверных находок установлен разумный порог на E-value = 0.0001:
blastp -task blastp -query CLPX_ECOLI.fasta -db base.fasta -out blast.out -evalue 0.0001
В результате был получен список находок.
2. Реконструкция и визуализация
Затем последовательности находок были собраны в один fasta-файл, а их названия
были отредактированы так, что остались только ID
(для удобства последующей визуализации дерева).
После было проведено множественное выравнивание с помощью
программы muscle с параметрами по-умолчанию.
После преобразования в формат .phy на основе выравнивания была проведена
филогенетическая реконструкция с использованием программы fastme
с моделью MtREV и 100 бутстреп-реплик.
Дерево в формате Newick
Рис. 1. Реконструкция дерева найденных гомологов белков бактерий отдела Pseudomonadota. Укоренение в среднюю точку. Визуализированно с помощью программы iTOL
Три пары паралогов: HSLU_BURMA и CLPX_BURMA, HSLU_PASMU и CLPX_PASMU, RUVB_BARHE и HSLU_BARHE
Три пары ортологов: HSLU_PASMU и HSLU_BURMA, HSLU_BARHE и HSLU_BRUSU, CLPX_BARHE и CLPX_BRUSU
Рис. 2. Реконструкция дерева найденных гомологов белков бактерий отдела Pseudomonadota.
Цветами обозначены ортологические группы. Последовательность A5FYD7_ACICJ попала в правильную ортологическую группу
(я проверил её полное название в выдаче blast). Самая базальная ортологическая группа соответствует белку
"ATP-dependent zinc metalloprotease FtsH..".
Рис. 3. Реконструкция дерева найденных гомологов белков бактерий отдела Pseudomonadota.
Цветами обозначены ортологические группы. Ортологические группы с более чем тремя последовательностями
были схлопнуты.
В ортологической группе "ATP-dependent zinc metalloprotease FtsH.." (голубая) содержатся
последовательности 4 из 7 организмов. Реконструированная филогения
не соотвествует филогении бактерий.
В ортологической группе HSLU (сиреневая) содержатся
последовательности 6 из 7 организмов (все кроме POLAQ). Реконструированная филогения
частично соотвествует филогении бактерий (некоторые организмы объединены в клады правильно,
но общее расположение клад друг относительно друга неверно).
В ортологической группе CLPX (зеленая) содержатся
последовательности 7 из 7 организмов. Реконструированная филогения
частично соотвествует филогении бактерий (некоторые организмы объединены в клады правильно,
но общее расположение клад друг относительно друга неверно).