Практикум 4

Для выполнения данного практикума были выбраны протеомы следующих бактерий из директории /P/y22/term4/Proteomes: ACICJ.fasta, AGRFC.fasta, ACICJ.fasta, BARHE.fasta, BORPE.fasta, BRUSU.fasta, BURMA.fasta. Я объединил эти файлы в один. Впоследствии с помощью команды makeblastdb я создал локальную базу данных для запуска blastp. Далее я запустил blastp (запросом послужила последовательность белка CLPX_ECOLI) с порогом 0.0001. Результаты выдачи программы можно посмотреть здесь.

Далее я собрал все найденные последовательности и провёл множественное выравнивание с помощью Muscle. Далее, на основании этого выравнивания было построено дерево с помощью программы FastME с бутстреп-поддержкой в 100 реплик. Формулу дерева в формате Newick можно посмотреть здесь. Ниже представлены полученные деревья (где клады сгруппированы и полная версия дерева).

Рис. 1. Филогенетическое дерево находок с окраской по группам ортологов
Рис. 2. Филогенетическое дерево находок с группировкой групп ортологов

Всего выделилось три группы: жёлтая (ATP-dependent protease ATPase subunit HslU), красная (ATP-dependent Clp protease ATP-binding subunit ClpX), коричневая (ATP-dependent zinc metalloprotease FtsH). Примеры пар ортологов: HSLU_AROAE и HSLU_BORPE, CLPX_AROAE и CLPX_BORPE, Q7CT50_AGRFC и A0A0H3LXZ4_BARHE. Примеры пар паралогов: HSLU_AROAE и CLPX_AROAE, HSLU_BORPE и CLPX_BORPE, Q7CT50_AGRFC и HSLU_AGRFC.

Группа HSLU полностью совпадает с правильной филогенетической группировкой (все 7 организмов сгруппированы верно). Группа CLPX содержит белки всех 7 организмов, однако есть расхождения с эталоном: вместо клады (CLPX_BARHE, (CLPX_AGRFC, CLPX_BRUSU)) должна быть клада (CLPX_AGRFC, (CLPX_BARHE, CLPX_BRUSU)). В группе коричневого цвета только 5 организмов из 7, а также есть ошибки: вместо клады (A0A0H3GCZ6_BRUSU, (A0A0H3LXZ4_BARHE, Q7CT50_AGRFC)) должна быть клада (Q7CT50_AGRFC, (A0A0H3LXZ4_BARHE, A0A0H3GCZ6_BRUSU)).