Ферменты и метаболические пути. База данных KEGG
Выбор пары ортологических рядов
Был выбран метаболический путь биосинтеза фолата (витамин B9, витамин M), или folate biosynthesis.
Ссылки на два ортологических ряда белков: K00072 (107 последовательностей белков - Uniprot) и K04071 (10 последовательностей белков - Uniprot) (всего два ортологических ряда в данной реакции). В ходе реакции одна из функциональных групп молекулы превращается из карбонильной в гидроксогруппу.
Ниже приведена картинка с выделенными идентификаторами реакций (1.1.1.153 была выделена дважды, потому что присутствует в биосинтезе дважды):

Получение совместного множественного выравнивания
Сперва был написан скрипт, для того, чтобы извлечь идентификаторы из таблицы на сайте KEGG. После чего с Uniprot были скачаны два fasta файла для двух ортологичных групп - K00072 и K04071. После, я использовал скрипт для того, чтобы поменять идентификаторы.
(Скрипт второй)
В итоге получились такие файлы - K00072 и K04071. Для удобства они были объединены в один файл.
При помощи программы Muscle было построено множественное выравнивание.
Ссылка на файл в fasta формате.
Ссылка на jvp-проект.
Проверка гомологичности белков в выравнивании
В выравнивании были удалены белки, которые очень плохо выровнены с остальными, и короткие белки. Всего таких последовательностей нашлось 15 штук из 117. При этом все удаленные белки из одного ортологического ряда, K00072.
В итоге вот файл с конечным выравниванием и крайний jvp-проект. Ниже приведена таблица с идентификаторами всех удаленных из выравнивания последовательностей:
Таблица 1. Идентификаторы последовательностей, которые были исключены из выравнивания | |
---|---|
Последоватльности, которые слишком сильно отличаются от остальных | Короткие последовательности |
B3MVX2_DROAN Q4RBE9_TETNG E5SF38_TRISP E0VPV4_PEDHC Q4RBF0_TETNG B3S2B2_TRIAD A0A0L866L2_OCTBM B7PCL0_IXOSC A0A0D3RIF6_RABIT |
B7QMY1_IXOSC D0NSD4_PHYIT B8BVR3_THAPS Q4RBF1_TETNG B7Q6H5_IXOSC V4ACD8_LOTGI |
По полученному выравниванию можно с уверенностью говорить о гомологии белков внутри ортологического ряда. Это подтверждается достаточно крупными вертикальными блоками с консервативными позициями в ней внутри ортологического ряда. Однако такое распространять на оба ряда, по-видимому, нельзя. Значит и о множественном выравнивании, и о гомологии между этими рядами говорить, видимо, ошибочно.
Построение филогенетического дерева
Осознав свою критическую ошибку, почти с полной уверенностью, утверждаю, что построение деревьев для таких рядов не несет собой никакого биологического смысла.
⌘
© Emir Radkevich, 2016