Работа с KEGG ORTHOLOGY

Выбор пары ортологичных рядов

Для сравнения определенных в базе данных KEGG ORTHOLOGY ортологических рядов белков, катализирующих одну и ту же реакцию, были выбраны два ряда: K01655 и K10977.
Данные ферменты катализируют одну из реакций, относящихся к метаболизму пирувата - превращение ацетил-кофермента А в цитрат. Реакция отмечена на рисунке 1 (синим цветом).

Рис.1 Карта метаболизма пирувата, полученная из базы данных KEGG.
Синим выделена реакция, для которой изучалась гомологичность белков из разных ортологических рядов.

Пируваты (соли пировиноградной кислоты) — важные химические соединения в биохимии. Они являются конечным продуктом метаболизма глюкозы в процессе гликолиза.
Одна молекула глюкозы превращается при этом в две молекулы пировиноградной кислоты. В условиях достаточного поступления кислорода пировиноградная кислота превращается
в ацетил-кофермент А, являющийся основным субстратом для серии реакций, известных как цикл Кребса, или дыхательный цикл, цикл трикарбоновых кислот. Если кислорода недостаточно,
пировиноградная кислота подвергается анаэробному расщеплению с образованием молочной кислоты у животных и этанола у растений и грибов.
Пировиноградная кислота является «точкой пересечения» многих метаболических путей. Пируват может быть превращён обратно в глюкозу в процессе глюконеогенеза, или в жирные кислоты или
энергию через ацетил-КоА, в аминокислоту аланин, или в этанол.[1]

Рис.2 Пировиноградная кислота

Из базы данных UniProt были получены последовательности белков из приведенных ортологических рядов. Последовательности в формате fasta: K01655 (163 белка) и K10977 (80 белков).
К идентификаторам белков были добавлены идентификаторы их ортологических рядов(скрипт на Python, итоговый файл). Затем белки были выровнены с помощью программы
Muscle (файл с выравниванием в формате fasta ). На выравнивание можно посмотреть в проекте JalView.

Проверка выравнивания

В выравнивании часто встречаются белки, которые относительно плохо выровнены с остальными белками. Однако говорить о том, что эти белки относятся к отдельному ортологическому ряду, нельзя,
так как в них также есть остатки, входящие в состав консервативных колонок. Отличия же наблюдаются либо вне блоков, либо только в небольшом количестве позиций блоков. При этом можно выделить
отдельные группы (по 2 и более белков), основываясь на сходствах в тех участках, которые не совпадают для всех белков (аминокислотный состав в них варьирует). Последовательности в итоговом окне
results(см. ниже) были частично отсортированы по самым большим группам для удобства просмотра, были удалены гэповые колонки и несовпадающие участки в начале и в конце белков. Также в выравнивании
есть короткие белки, последовательности которых, возможно, были получены при не полном секвенировании или ошибках аннотации. Такие белки были удалены перед дальнейшей работой.

В проекте JalView можно проследить за действиями в ходе выполнения данной части работы. Первое окно start_sequences - исходные последовательности белков.
Второе окно alignment - выравнивание этих белков с помощью Muscle (без изменений). Третье окно results - произведена частичная сортировка по группам, удалены короткие последовательности,
гэповые колонки и несовпадающие участки в начале и в конце белков (это выравнивание использовалось для построения дерева).

Гомологичность белков в выравнивании

На основании построенного выравнивания можно сделать вывод, что белки из данных ортологических рядов гомологичны между собой (как внутри одного ряда, так и из разных рядов).
Это можно подтвердить тем, что по всему выравниванию есть достаточно много блоков и консервативных колонок, расположенных не поодиночке, а в сходном окружении. При этом
консервативные колонки достаточно часто состоят из заряженных аминокислот, которые могут быть важны для функционирования и конформации белка. Также в выравнивании часто встречаются
длинные участки, состоящие из колонок с гэпами. Их появление обусловлено наличием какой-то вставки в одном (или нескольких) из белков и ее отсутствием во всех остальных белках.
При построении дерева эти колонки не учитываются.

Построение дерева

На основе полученного выравнивания было построенно дерево. Для этого использовалась программа MEGA, алгоритм Neighbour-Joining со 100 бутстрэп-репликами. Полученное дерево представлено на рисунке 3.

Рис.3 Филогенетическое дерево ферментов из двух ортологических рядов, катализирующих одну и ту же реакцию.
Построено алгоритмом Neighbour-Joining со 100 бутстрэп-репликами с помощью программы MEGA.

Как видно из рисунка 2, дерево распадается на клады, соответствующие ортологическим рядам. При этом ветви, отделяющие данные клады от остального дерева,
достоверны (их поддержка на основании бутстрэп-анализа равна 96%). В целом, почти все тривиальные ветви дерева (внутри основных клад) имеют похожую длину(дробная величина,
отображенная под каждой ветвью дерева; длина ветви дерева пропорциональна числу мутаций), кроме двух-трех исключений. В качестве такого исключения была рассмотрена ветвь,
отделяющая белок 9RHOB|K10977 от остальных белков этого ортологического ряда(на рисунке выделена зеленым, 0,67). На выравнивании можно увидеть, что число совпадающих консервативных позиций
у этой последовательности меньше и частота функционально различных аминокислотных замен возрастает. Примеры можно увидеть на рисунках 4 и 5.

Рис.4 Различия в аминокислотном составе последовательности 9RHOB|K10977 и остальных белков ортологического ряда на позициях 150-230.

Рис.5 Различия в аминокислотном составе последовательности 9RHOB|K10977 и остальных белков ортологического ряда на позициях 208-300.

Источники:

[1] Wiki