Практикум 4

  1. Составление списка гомологичных белков, включающих паралоги
  2. Поиск белков, гомологичных белку CLPX ECOLI, проводился среди белков бактерий, рассматриваемых в предыдущих практикумах. Сначала нужно создать базу данных для BLAST:

         
        makeblastdb -in proteomes.fasta -dbtype prot
    
    

    Собственно поиск проводился с помощью алгоритма blastp, порог e-value равен 0.001.

         
        blastp -query query.fasta -db db/proteomes.fasta -out out.txt -outfmt 7
        -evalue 0.001 -max_target_seqs 100
    
    

    дал 32 результата.

         
        AC найденного белка          e-value выравнивания
        CLPX_PROMH                   0.0
        CLPX_THIDA                   0.0
        CLPX_AROAE                   0.0
        CLPX_POLAQ                   0.0
        CLPX_RHIME                   0.0
        CLPX_AGRFC                   0.0
        CLPX_ROSDO                   0.0
        CLPX_NEIMA                   0.0
        HSLU_PROMH                   8.55e-22
        HSLU_PROMH                   6.02e-21
        HSLU_ROSDO                   8.85e-21
        HSLU_ROSDO                   1.03e-20
        HSLU_AROAE                   8.92e-21
        HSLU_AROAE                   5.16e-17
        HSLU_RHIME                   1.33e-20
        HSLU_RHIME                   9.04e-20
        HSLU_AGRFC                   2.35e-20
        HSLU_AGRFC                   3.62e-18
        Q3SFW1_THIDA                 1.75e-18
        Q3SFW1_THIDA                 2.51e-17
        B4EV83_PROMH                 1.37e-06
        B4F2B3_PROMH                 1.71e-05
        RUVB_ROSDO                   2.93e-05
        Q92M98_RHIME                 3.74e-05
        Q7CT50_AGRFC                 4.27e-05
        Q3SJR4_THIDA                 1.45e-04
        A4SXL5_POLAQ                 1.67e-04
        RUVB_NEIMA                   2.07e-04
        Q3SJH1_THIDA                 3.02e-04
        Q16C81_ROSDO                 8.08e-04
        Q167Z2_ROSDO                 8.19e-04
        A0A0U1RJ22_NEIMA             0.001
    
    

  3. Реконструкция и визуализация
  4. Последовательности найденных белков были помещены в один fasta-файл (вот так). После я к ним добавила последовательность изначально данного белка.

    1. Реконструкция дерева
    2. Дерево было получено при помощи конвейера MAFFT → FastME c параметрами:

      • Gamma distributed rates across sites: No
      • Starting tree (distance algorithm used): BIONJ
      • Tree Refinement: No Refinement
      • Количество Bootstrap реплик: 100
      Рис. 1 Реконструированное дерево, укоренённое в середину

    3. Поиск ортологов и паралогов
    4. Таблица 1 Примеры пар ортологов и паралогов (считаем, что дерево на рис. 1 реконструировано верно)
      Примеры ортологов Примеры паралогов
      RUVB NEIMA и RUVB ROSDO A0A0U1RJ22 NEIMA и RUVB NEIMA
      A0A0U1RJ22 NEIMA и A4SXL5 POLAQ RUVB ROSDO и HSLU ROSDO
      HSLU ROSDO и HSLU AGRFC CLPX RHIME и HSLU RHIME

    5. Сравнение с филогенетическим деревом бактерий
    6. Рис. 2 Реконструированное дерево, укоренённое в середину. Группы попарно ортологичных белков покрашены в различные цвета

      Сравним с референсным филогенетическим деревом бактерий:

      Рис. 3 Референсное дерево

      Данный в задании белок принадлежит Escherichia coli, которая, согласно NCBI Taxonomy Browser, принадлежит классу Gammaproteobacteria, который принадлежит Pseudomonadota. Взаимное расположение ветвей Alphaproteobacteria, Betaproteobacteria и Gammaproteobacteria, насколько я поняла, пока не до конца ясно.

      Рассмотрим взаимное расположение белков внутри групп ортологичных белков (рис. 2):

      • – можно заметить, что во всех случаях в ID содержится не мнемоника функции, а просто набор букв и цифр. Возможно, просто про данные белки известно не так много, и такой мнемоники просто нет. Все эти белки, кроме самого базального A0A0U1RJ22_NEIMA, аннотированы как металлопептидаза FtsH, использующая для катализа ион Zn2+. Этот базальный белок аннотирован как белок, участвующий в рекомбинации в ответ на остановку репликативной вилки.

        В этой группе есть белки всех бактерий, кроме AORAE. Кусочек, содержащий белки ROSDO, AGRFC и RHIME совпал с референсным деревом бактерий, что согласуется с высокой поддержкой bootstrap. У остальных ветвей, кроме той, которая отделяет A0A0U1RJ22_NEIMA, поддержка существенно ниже. Возможно, этот базальный белок на самом деле не ортолог, и на самом деле отделился раньше, чем разделились соответствующие виды.

      • – есть все белки, кроме белков бактерий NEIMA и POLAQ. Топология верная, что согласуется с высокой поддержкой ветвей.

      • – есть все белки, включая CLPX ECOLI. Одна из ветвей (отделяющая белки ECOLI, PROMH, AORAE, THIDA) оказалась очень короткой и имеет поддержку всего 26, так чо можно сказать, что этот участок вообще не разрешился.

        Оказалось, что Proteus mirabilis (PROMH), как и E. coli, принадлежит классу Gammaproteobacteria, и на реконструированном дереве видим, что белки этих двух бактерий от всех остальных отделились ветвью с высокой поддержкой.

        Отдельно ветвь альфапротеобактерий реконструировалась верно, а про бетапротеобактерий такого сказать нельзя: белок бактерии NEIMA снова оказался базальным по отношению ко всем остальным белкам в этой группе, и это явно не случайно так получилось, потому что поддержка равна 86 данном случае. Либо эти два белка на самом деле не являются ортологичными по отношению к другим белкам в соответствующей группе, либо скорость эволющии этих белков Neisseria meningitidis по каким-то причинам увеличена.

      • Рис. 4 Реконструированное дерево, рассматриваемые выше предполагаемые группы ортологичных белков "схлопнуты"