Ферменты и метаболические пути. База данных KEGG


Выбор пары ортологических рядов

Был выбран метаболический путь биосинтеза фолата (витамин B9, витамин M), или folate biosynthesis.
Ссылки на два ортологических ряда белков: K00072 (107 последовательностей белков - Uniprot) и K04071 (10 последовательностей белков - Uniprot) (всего два ортологических ряда в данной реакции). В ходе реакции одна из функциональных групп молекулы превращается из карбонильной в гидроксогруппу.
Ниже приведена картинка с выделенными идентификаторами реакций (1.1.1.153 была выделена дважды, потому что присутствует в биосинтезе дважды):


Получение совместного множественного выравнивания

Сперва был написан скрипт, для того, чтобы извлечь идентификаторы из таблицы на сайте KEGG. После чего с Uniprot были скачаны два fasta файла для двух ортологичных групп - K00072 и K04071. После, я использовал скрипт для того, чтобы поменять идентификаторы.
(Скрипт второй)

В итоге получились такие файлы - K00072 и K04071. Для удобства они были объединены в один файл.

При помощи программы Muscle было построено множественное выравнивание.
Ссылка на файл в fasta формате.
Ссылка на jvp-проект.

Проверка гомологичности белков в выравнивании

В выравнивании были удалены белки, которые очень плохо выровнены с остальными, и короткие белки. Всего таких последовательностей нашлось 15 штук из 117. При этом все удаленные белки из одного ортологического ряда, K00072.
В итоге вот файл с конечным выравниванием и крайний jvp-проект. Ниже приведена таблица с идентификаторами всех удаленных из выравнивания последовательностей:

Таблица 1. Идентификаторы последовательностей, которые были исключены из выравнивания
Последоватльности, которые слишком сильно отличаются от остальныхКороткие последовательности
B3MVX2_DROAN
Q4RBE9_TETNG
E5SF38_TRISP
E0VPV4_PEDHC
Q4RBF0_TETNG
B3S2B2_TRIAD
A0A0L866L2_OCTBM
B7PCL0_IXOSC
A0A0D3RIF6_RABIT
B7QMY1_IXOSC
D0NSD4_PHYIT
B8BVR3_THAPS
Q4RBF1_TETNG
B7Q6H5_IXOSC
V4ACD8_LOTGI

По полученному выравниванию можно с уверенностью говорить о гомологии белков внутри ортологического ряда. Это подтверждается достаточно крупными вертикальными блоками с консервативными позициями в ней внутри ортологического ряда. Однако такое распространять на оба ряда, по-видимому, нельзя. Значит и о множественном выравнивании, и о гомологии между этими рядами говорить, видимо, ошибочно.

Построение филогенетического дерева

Осознав свою критическую ошибку, почти с полной уверенностью, утверждаю, что построение деревьев для таких рядов не несет собой никакого биологического смысла.