Практические аспекты реконструкции филогении

Петренко Павел

Факультет биоинженерии и биоинформатики, Московский Государственный Университет имени М.В.Ломоносова

Составление списка гомологичных белков, включающих паралоги

Для этого практикума я выбрал следующие бактерии из отдела Pseudomonadota (в дальнейшем будут использоваться буквенные сокращения):

  • AGRFC -Agrobacterium fabrum
  • AROAE -Aromatoleum aromaticum
  • POLAQ -Polynucleobacter asymbioticus
  • RHIME -Rhizobium meliloti
  • SACD2 -Saccharophagus degradans
  • SHEDO -Shewanella denitrificans
  • THIDA -Thiobacillus denitrificans
  • YERPE -Yersinia pestis
  • Из протеомов данных бактерий составили библиотеку, по которой затем с помощью blastp провели поиск гомологов белка CLPX_ECOL (ATP-dependent Clp protease ATP-binding subunit ClpX). Использовали следующие команды:

    makeblastdb -in all_proteomes.fasta -dbtype prot -out all_db
    blastp -db all_db -query proteom.fasta -out results.txt -outfmt 7 -evalue 1e-4

    Получили вот такой список находок: выдача BLAST. Важно отметить, что некоторые из выравниваний находятся на одних и тех же последовательностях.

    Реконструкция и визуализация

    Сначала полученные находки были скачаны в один fasta-файл, выровнены с помощью алгоритма muscle на кодомо и переведены в формат phylip-relaxed (см. практикум 2), после чего было построено дерево с помощью программы fastme:

    fastme -p -i aln.phy -o output -b 100

    Получили скобочную формулу в формате Newick: тык

    Пары паралогов: Q7CT50_AGRFC и HSLU_AGRFC, A0A5P8YCE6_YERPE и A0A5P8YB42_YERPE, CLPX_THIDA и Q3SFW1_THIDA (гомологичные белки из одного организма).

    Пары ортологов: CLPX_THIDA и CLPX_AROAE, HSLU_SHEDO и HSLU_RHIME, CLPX_SACD2 и CLPX_YERPE (гомологичные белки из разных организмов).


    PTREE
    Рис. 1а. Дерево, построенное по аминокислотной последовательности гомлогов белка CLPX_ECOL с помощью программы fastme, использующей метод ME, оценивающее эволюционное расстояние с помощью модели LG, укорененное в среднюю ветвь и с бутстрепом 100, разными цветами выделены белки ортологи.
    MTREE
    Рис. 1б. Филогенетическое дерево, построенное по таксономии по образцу, представленному в задании, с помощью iTOL.

    Рис. 2. Дерево, построенное по аминокислотной последовательности гомлогов белка CLPX_ECOL с помощью программы fastme, со свёрнутыми ветвями.

    На рисунке 1а видно, что образовались клады: фиолетовая клада с АТФазными протеазами; одиночный АТФазный белок, не вошедший ни в одну кладу; красная клада с АТФазной субъединицей комплекса HslUV; синяя клада АТФ-зависимой разворачивающей субъединицы. При сравнении этих клад видно, что синяя клада CLPX полная, то есть содержит гомологичные белки всех выбранных организмов. Красная клада также очень хорошо выделяется с отсутствием гомолога HSLU у POLAQ, что может быть связано со вторичной утратой этого белка. Если считать, что приведённое в задании дерево содержит верную филогению, то синяя клада CLPX отображает почти верную филогению бактерий, единственная ошибка - THIDA и AROAE должны быть ближе, чем POLAQ и AROAE. В красной кладе же вся филогения соответствует истинной, за исключением отсутствия POLAQ.