Работа с KEGG ORTHOLOGY
Рассмотрим одну из реакций метаболизма пиримидинов: превращение дигидрооротата в оротат с участием кофактора НАД (см. рисунок 1, 2). Эту реакцию катализирует два ортологических ряда ферментов: K17828 (97 белков) и K02823 (63 белка). Оба ряда составляют дигидрооротат дегидрогеназы B [Б], однако все ферменты в первом ряду закодированы геном pyrD, во втором -- геном pyrK.
Для дальнейшей работы необходимо иметь два fasta-файла с последовательностями каждого из рядов, причем названия белков должны быть короткими и содержать идентификатор ряда (например PYRDB_THEP1|K17828). Для преобразования названий в скачанном с Uniprot в fasta-файле был использован скрипт на языке Python. После этого последовательности всех белков обоих рядов были выровнены алгоритмом muscle (файл с выравниванием). При покраске по Clustal видно, что есть четкая граница между последовательностями первого и второго ряда. Консерватиных колонок, общих для обоих рядов, немного. Шесть белков, которые не имели общих аминокислот в большинстве из этих консервативных позиций, пришлось удалить. Пять из них относилось ко второму ряду.
Далее в MEGA было построено дерево методом Neighbor-Joining со 100 бутстреп-репликами. Результат виден на рисунках 3, 4.
Дерево распадается на клады, соответствующие ортологическим рядам. Поддержка рядов высокая (100 реплик), то есть эти две клады встречаются во всех построенных бутстрепом деревьях.