Составление списка гомологов

Выбраны бактерии:

Достоверные гомологи белка CLPX_ECOLI

Белок CLPX_ECOLI - ref.fasta


Объединил протеомы всех бактерий в один файл с помощью команды:

  • cat ~/protein/* >> sum.fasta
  • Произвел поиск программой blastp:

  • blastp -query ref.fasta -subject sum.fasta -evalue 0.0001 > blast.txt
  • Полная выдача доступна по ссылке. Был получен список из 19 находок:



    Реконструкция и визуализация

    Отредактированный файл с найденными последовательностями доступен по ссылке

    Выравнивание производил с помощью команды muscle:

  • muscle -align remaster.fasta -output aligned.fa
  • Произвел построение дерева (файл с посл-тями был предварительно переведен в формат phylip-relaxed скриптом по ссылке) с помощью программы fastme, используя модель p-distance:

  • fastme -i phr.fa -o 8.tre -pp
  • Полученная Newick формула доступна по ссылке

    Рис. 1. Дерево гомологов CLPX_ECOLI. Цветами обозначены группы ортологов. Синим цветом отмечена группа достоверных ортологов CLPX_ECOLI, другими цветами - прочие группы ортологов.

    Примеры пар ортологов (рис. 1):

    Примеры пар паралогов (рис. 1):

    Рис. 2. Дерево гомологов CLPX_ECOLI. Наиболее крупные две группы ортологов были схлопнуты с сохранением цвета: синий треугольник обозначает CLPX белки всех бактерий, зелёный - HSLU белки ROSDO, BARHE, SHEDO, HAEIN, PASMU и A5FYD7_ACICJ, Q3SFW1_THIDA.

    Сравнение с референсом

    Рис. 3. Референсное дерево списка из 23 бактерий.

    Дерево на рис. 3 является референсным. Пользоваться им для сравнения результатов не очень удобно (на дереве расположено 23 бактерии, а нас интересует только треть из них), поэтому я построил новое дерево (рис. 4) из 8 моих бактерий на основе старого дерева.

    При сравнении полученного дерева гомологов (рис. 5) с новым референсным (рис. 4) можно легко заметить, что ветвь с HSLU белками (выделена зеленым) построена правильно. От референса данная ветвь отличается лишь отсутствием бактерии NEIMA. Ветвь достоверных ортологов CLPX окрашена красным, т. к. её устройство не совпадает с референсом. Правильно выделены в подгруппу только CLPX_PASMU и CLPX_HAEIN. Маленькие ветви не стоит принимать во внимание - они, конечно же, обладая всего двумя листами (каждая), построиться могли лишь одним способом.

    Рис. 4. Референсное дерево из 8 выбранных мною ранее бактерий. Построено на основе референсного дерева (рис. 3).
    Рис. 5. Дерево гомологов CLPX_ECOLI. Зелёным отмечена корректная ветвь HLSU белков, красным - неправильно построенная ветвь достоверных ортологов CLPX.

    Подробнее рассмотрим неправильную ветвь:

    • Правильно объединены PASMU и HAEIN
    • CLPX_BARHE, CLPX_ACICJ и CLPX_ROSDO, судя по дереву, крайне незначительно отличаются друг от друга. Но iTOL не делает трихотомий, и поэтому программа предпочла сделать ошибку.
    • Ошибочно объединились в одну кладу SHEDO и BARHE.
    • NEIMA вместе с кладой PASMU-HAEIN объединены в одну кладу. В этом месте iTOL тоже мог бы поставить трихотомию (с другими пятью бактериями) - отличия между белками не очень велики.
    Рис. 6. Неправильно построенная ветвь достоверных ортологов.

    Выводы

    С помощью программы blastp удалось найти гомологов и относительно удачно расположить их на дереве. Возникли проблемы с расположением белков CLPX, зато группа бактерий идеально распределилась по HLSU и пары других белков, которые, видимо, не были аннотированы и не имеют мнемоники. Можно убедиться с помощью базы данных UniProt в том, что данные белки также являются продуктами гена hslU (в соответствующих организмах) и выполняют роль АТФ-зависимой АТФазной субъединицы (как и их аннотированные в Swiss-Prot гомологи).