Практикум 4

Резюме: В ходе работы над данным практикумом было реконструировано дерево гомологов белка ATP-dependent Clp protease ATP-binding subunit ClpX из E. coli и проведен анализ этого дерева.


Из предложенных бактерий я выбрал те, в названии которых есть буква A, но нет буквы R (8 протеомов бактерий отдела Pseudomonadota, рис. 3). Далее был произведен поиск гомологов белка CLPX_ECOLI с помощью standalone blastp с порогом на e-value 0,0001, остальные параметры по умолчанию. Нашлись последоваетльности белка ClpX из других бактерий, последовательнсти ATP-dependent protease ATPase subunit HslU, и белок ATP-dependent zinc metalloprotease FtsH из Acidiphilium cryptum (c гораздо более высоким e-value, чем у других, см выдача).




Реконструкция и визуализация

Далее с помощью программы seqret были получены последовательности белков-находок бласта. Трое из находок были из TrEMBL (остальные из SwissProt). Далее последовательности были выравнены программой muscle с параметрами по умолчанию. Затем мне почему-то захотелось заморочиться и понять, какую модель лучше использовать для филогенетического анализа бактериальных белков. Погуглив и почитав мануал, я воспользовался следующей командой:

iqtree -s subj-alignment.fasta -m TEST -mset LG,WAG+G+I

Как я понимаю, такая штука автоматически выбирает лучшую модель из предложенных какими-то магическими методами. В итоге лучшее дерево было построено с помощью модели LG+G4. +G - поправка на гетерогенность замен - не все участки последовательности эволюционируют с одинаковой скоростью (+G4 указывает на использование гамма-распределения с четырьмя категориями скоростей). Не знаю, насколько это все было целесообразно, потому что iqtree по умолчанию использует LG. Ну и конечно, я не очень понимаю всю эту магию, но мне понравилось.




Рис.1. Реконструкция дерева найденных гомологов. Укоренение в среднюю точку. В отличие от аннотированных последовательностей, IDшники последовательностей, взятых из TrEMBL, не humanreadable, но, спойлер, они попали в правильные ортологические группы, Q3SFW1_THIDA и A5FYD7_ACICJ cоответствуют ATP-dependent protease ATPase subunit HslU соответствующих организмов, как и аннотированные белки в их группе. A5FVF9_ACICJ - ATP-dependent zinc metalloprotease FtsH из Acidiphilium cryptum, ожидаемо занимает самое базальное положение

Вот такое дерево получислось (рис. 1).
Ура, ортологические группы четко выделяются

Паралоги:
CLPX HAEIN и HSLU HAEIN
A5FVF9 ACICJ и A5FYD7 ACICJ
CLPX SACD2 и HSLU SACD2
Ортологи:
HSLU SACD2 и HSLU HAEIN
CLPX POLAQ и CLPX THIDA
CLPX HAEIN и CLPX NEIMA


Описание ортологических групп
Рис.2. Реконструкция дерева найденных гомологов. Укоренение в среднюю точку. Ортологические группы "схлопнуты". Красным цветом обозначена группа последовательностей белка HSLU, фиолетовым - белка CLPX. Характеристика их состава дана ниже

Характеристика реконструированной филогении
Рис.3. Дерево выбранных бактерий, построенное на основе таксономии
Рис.4. Ортологическая группа последовательностей белка HSLU
Рис.5. Ортологическая группа последовательностей белка CLPX

В ортологической группе HSLU (ATP-dependent protease ATPase subunit HslU) содержатся последовательности 6 из 8 вырбранных бактерий (нет NEIMA и POLAQ). Реконструированная филогения соотвествует филогении бактерий.

В ортологической группе CLPX есть последователности из всех выбранных бактерий, но с филогенией беда. Верно реконструированными являются только ветви (PSEAE,SACD2) и (HAEIN,PASMU). Остальные не соотвествуют филогении бактерий.


ТАКИМ ОБРАЗОМ, гомологи, найденные blastp, наглядно разбились на ортологические группы, одна из которых (HSLU) даже полностью соответствует филогении бактерий. Реконструкция дерева гомологов также наглядно показала принадлежность белков с неудобочитаемыми IDшниками к соответствующей ортологической группе (удостовериться в этом можно, прочитав название белка в записи Uniprot)