1. Составление списка гомологичных белков, включающих паралоги

Для поиска гомологов белка CLPX_ECOLI (ATP-связывающая субъединица ATP-зависимой Clp протеазы E.coli) были выбраны 7 бактерий из отдела Pseudomonadota, со следующими мнемониками:

Далее необходимо было подготовить эти протеомы для запуска программы blastp, для этого сперва протеомы выбранных бактерий были объединены в один файл следующей командой:

cat /P/y22/term4/Proteomes/ACICJ.fasta /P/y22/term4/Proteomes/BRUSU.fasta /P/y22/term4/Proteomes/BURMA.fasta /P/y22/term4/Proteomes/HAEIN.fasta /P/y22/term4/Proteomes/POLAQ.fasta /P/y22/term4/Proteomes/PSEAE.fasta /P/y22/term4/Proteomes/ROSDO.fasta > proteomes.fasta

Затем на основе выбранных протеомов была создана локальная база данных для запуска blastp с помщью команды:

makeblastdb -in proteomes.fasta -dbtype prot -out pseudo_db

После чего был запущен blastp на основе созданной базы данных, в качестве запроса была подана последовательность белка с мнемоникой CLPX_ECOLI, для отбора достоверных гомологичных белков среди отобранных бактерий был поставлен порог на E-value в 0.0001:

blastp -query CLPX_ECOLI.faa -db pseudo_db -outfmt 6 -evalue 0.0001 -out clpx_homo.txt

выдача

2. Реконструкция и визуализация

Последовательности находок были собраны в один файл fasta-файл, после чего было проведено выравнивание программой muscle. После перевода в нужный формат .phy при помощи скрипта было построено дерево реконструкции с помощью программы FastME с использованием модели оценки расстояний p-distance, также была использована бутстреп-поддержка (100 реплик)

fastme -i clpx_homologs.phy -o clpx_pdist.tre -p -b 100

Формула дерева в формате Newick

Ортологи и паралоги

Примеры пар паралогов:

  • CLPX_ACICJ и A5FYD7_ACICJ
  • CLPX_ROSDO и RUVB_ROSDO
  • HSLU_BURMA и A0A0H2WJ72_BURMA
  • Примеры пар ортологов:

  • CLPX_BURMA и CLPX_BRUSU
  • A5FYD7_ACICJ и HSLU_HAEIN
  • HSLU_PSEAE и HSLU_HAEIN
  • Рис. 1. Реконструированное дерево, построенное программой Fastme с использованием модели оценки расстояний p-distance, бутстреп-поддержка - 100 реплик, по последовательностям найденных гомологов CLPX_ECOLI. Дерево укоренено в среднюю точку, окрашено по ортологическим группам белков: зелёным цветом выделена ортологическая группа ATP-связывающих субъединиц ATP-зависимой Clp протеазы, синим - ATP-азных субъединиц HslU ATP-зависимой протеазы, неокрашенными остались группа АТФ-зависимых цинковых металлопротеаз FtsH и субъединица комплекса миграции ответвлений Холлидей-Джанкшен RuvB.

    Рис. 2. Реконструированное дерево гомологов CLPX_ECOLI со схлопнутыми ортологическими группами. В зеленую группу CLPX попали все белки из каждой взятой бактерии, в голубую группу HSLU не попал белок Polynucleobacter asymbioticus.

    Сравнение соответствия реконструкции групп ортологов и филогении бактерий:

    CLPX: клада ((((((BRUSU, ROSDO), ACICJ), PSEAE), BURMA), HAEIN), POLAQ) не соответствует филогении, должно быть (((BRUSU, ROSDO), ACICJ), ((BURMA, POLAQ),(PSEAE, HAEIN))).

    HSLU: клада (((((PSEAE, HAEIN), BRUSU), ACICJ), ROSDO), BURMA) не соответствует филогении, должно быть (((PSEAE, HAEIN)), BURMA), (ACICJ, (ROSDO, BRUSU))).

    Данное дерево было использовано как эталонная филогения бактерий.