Работа с KEGG ORTHOLOGY | Учебный сайт Аксеновой Марины

Общей целью данного задания было проверить, являются ли члены разных ортологических рядов KEGG гомологичными белками, и проанализировать их филогенетические отношения.

Выбор пары ортологических рядов для дальнейшей работы

Как следует из названия данного задания, здесь нужно было выбрать метаболический путь в базе данных KEGG. Для этого с главной страницы базы данных потребовалось перейти по ссылке "KEGG PATHWAY" (описание ссылки: "KEGG pathway maps"), где находится список со ссылками на различные метаболические пути.

Для дальнейшей работы был выбран метаболизм кофеина (Caffeine metabolism, находится на странице под пунктом "Biosynthesis of other secondary metabolites" - "Биосинтез в других вторичных метаболитах").

Главными источниками кофеина, по крайней мере, у взрослых людей, являются кофе и чай. В разных количествах кофеин встречается в какао, безалкогольных напитках типа кока-колы, матэ и в различных рецептурных и безрецептурных лекарственных средствах. На основе данных о балансе питательных веществ, ежедневное потребление кофеина на душу населения в Европе и Северной Америке составляет более чем 200 мг/сутки. Кофеин может вызвать зависимость и сильно влияет на людей с медленным метаболизмом данного вещества.
Через несколько минут после употребления кофе кофеин из напитка попадает в кровь и обычно не задерживается в организме более суток. Метаболизм кофеина происходит в печени и более чем на 90% зависит от человеческого цитохрома P4501A2 (CYP1A2). Хорошо изучен полиморфизм гена CYP1A2 rs762551: значение всего одного нуклеотида в данном гене определяет скорость метаболизма кофеина. Носители генотипа rs762551 (AA) способны быстро метаболизировать кофеин, а носители генотипа rs762551 (AС) или rs762551 (СС) являются «медленными метаболизерами». Так у носителей rs762551(AA) кофеин расщепляется в 1,6 раза быстрей, чем у обладателей генотипов (CC) или (AC), что существенно снижает риск инфаркта при ежедневном употреблении кофе. ^[1-3]

Рис. 1. Карта метаболического пути кофеина. EC выбранной реакции отмечен зеленым цветом.

На карте выбранного метаболического пути (представлена на Рис. 1 выше) была обозначена всего одна реакция, катализируюемая двумя ортологическими рядами белков, поэтому для дальнейшей работы была выбрана именно она. Это реакция превращения 1,3,7-триметилмочевой кислоты в 1,3,8-триметилаллантоин (схема реакции приведена ниже на Рис. 2):

1,3,7-Trimethyluric acid + Oxygen + 2 H2O <=> 3,6,8-Trimethylallantoin + CO2 + Hydrogen peroxide

Рис 2. Схема выбранной реакции.

Как уже было сказано ранее, данная реакция катализируется двумя ортологическими рядами белков. Это ряды K00365 и K16838, информация о которых представлена в Таблице 1.

Таблица 1. Информация об ортологических рядах белков, катализирующих выбранную реакцию
Идентификатор	Название	Описание	Число белковых последовательностей	Число генов
K00365	uaZ	urate oxidase	359 (342 из UniProt)	800
K16838	pucL	urate oxidase / 2-oxo-4-hydroxy-4-carboxy-5-ureidoimidazoline decarboxylase	15 (14 из UniProt)	27

В задании было рекомендовано, чтобы в каждом из выбранных рядов было не более 200 белков, т.к. большое количество белков затруднит выполнение дальнейших заданий. Однако, в данном случае выбрать другие ортологические ряды не представляется возможным, и, к тому же, в совокупности количество белков меньше 400 и не превышает рекомендованное максимальное количество.

Получение совместного множественного выравнивания

Далее следовало получить последовательности для каждого ортологического ряда. Для этого на странице каждого ортологического ряда была нажата кнопка "UniProt" в разделе Genes, затем появившаяся таблица была скопирована в Far Manager. Как ни странно, для ряда K00365 количество последовательностей, заявленное в таблице по ссылке All DBs -> Protein sequence -> UniProt (342 последовательности, обозначим для удобства эту таблицу цифрой 1) не совпадает с количеством последовательностей, полученных при нажатии на "UniProt" в разделе Genes (эту таблицу обозначим цифрой 2). Более того, в обеих таблицах есть уникальные ID последовательностей. Чтобы проверить и подтвердить это, был написан скрипт, берущий на вход 2 файла со скопированными таблицами, ищущий различающиеся и общие для обоих файлов ID и записывающий последние в новый файл.

По результатам работы скрипта оказалось, что всего 9 ID, которые есть в (2), но нет в (1): A0A1D8YPU1, E3TDW1, A0A1J7HVG0, A0A1D7VQQ6, A0A1I8M196, A0A191V589, A0A1A9J4B8, A0A1J0VZE0, A0A0B8NBC4;
также есть один ID, который присутствует в (1), но не в (2): F6X4Z4.
Таким образом, получилось, что в итоговом файле осталось всего 341 ID. Было решено отбросить 9 уникальных ID из (2), т.к. их все же нет среди ID, заявленных в БД последовательностей белков. Уникальный ID из (1) не использовался при дальнейшей работе, т.к. из (1) не представлялось возможным получить требуемый в задании иднетификатор вида XYZ_HUMAN|K00001 (в ID данной таблицы отсутствуют мненомики видов).

К счастью, со вторым ортологическим рядом таких проблем не возникло, поэтому нужные ID были скопированы и помещены в тот же файл.

Далее при помощи Uniprot были получены нужные последовательности, после чего их ID были модифицированы согласно заданию (приведены к виду XYZ_HUMAN|K00001 при помощи скрипта). Далее последовательности были выровнены сервисом Muscle (ссылка на fasta-файл с выравниванием).

Проверка гомологичности белков в выравнивании

Далее полученное выравнивание было открыто в программе Jalview и покрашено при помощи ClustalX. Исходное выравнивание было очень плохим, т.к. в нем присутствовало большое количество гэпов, а консервативных колонок, наоборот, было очень мало. Во время нее были удалены следующие последовательности:

I0F8I5_9BACI|K16838 - несмотря на то, что по длине эта последовательность соответствует своему ортологическому ряду, она очень плохо выровнена даже с белками своего ряда
H8H050_DEIGI|K00365 - очень плохо выровнена с остальными
Q92VC0_RHIME|K00365 - последовательность сильно длиннее остальных из своего ортологического ряда, очень плохо выровнена с остальными
C4JIY5_UNCRE|K00365 - плохо выровнена с остальными
A8NVS5_COPC7|K00365 - плохо выровнена с остальными
L1JQ23_GUITH|K00365 - плохо выровнена с остальными
R7SM35_DICSQ|K00365 - плохо выровнена с остальными
B4G8E6_DROPE|K00365 - плохо выровнена с остальными
A0A072VT68_MEDTR|K00365 - плохо выровнена с остальными
A0A0K2RMM0_9MICC|K00365 - очень короткая, 85 а.о.
A0A0K2RML9_9MICC|K00365 - очень короткая, 92 а.о.
D0RMJ8_PHYIT|K00365 - очень короткая, 103 а.о.
D0NWY8_PHYIT|K00365 - очень короткая, 116 а.о.
A8IJT8_CHLRE|K00365 - короткая, 208 а.о., много гэпов там, где у других консервативные колонки
B4HYA1_DROSE|K00365 - короткая, 241 а.о., много гэпов там, где у других консервативные колонки
B7G802_PHATC|K00365 - короткая, 247 а.о., много гэпов там, где у других консервативные колонки
F4S0W4_MELLP|K00365 - короткая, 270 а.о., много гэпов там, где у других консервативные колонки
B4G1P7_MAIZE|K00365 - короткая, 270 а.о., много гэпов там, где у других консервативные колонки
K5X4L4_PHACS|K00365 - короткая, 273 а.о., много гэпов там, где у других консервативные колонки
V2WHE9_MONRO|K00365 - короткая, 273 а.о., много гэпов там, где у других консервативные колонки
A0A0Q9WT76_DROVI|K00365 - короткая, 275 а.о., много гэпов там, где у других консервативные колонки

Длины оставшихся последовательностей варьировались в диапазоне примерно 290-500 а.о., причем среди них большинство было длиной 290-320 а.о., а последовательностей с длиной больше 351 а.о. было всего 12. Все эти последовательности принадлежали к ортологическому ряду K16838 и были длиной примерно 500 а.о. Соответственно, видно, что выравнивание внешне выглядит "не очень хорошим" за счет N-концевой вставки в верхнем кластере, однако хорошо выровненных позиций между кластерами достаточно много. Поэтому было решено пренебречь этой вставкой и считать белки в выравнивании гомологичными.

Проект JalView можно посмотреть по ссылке. В проекте всего 2 окна, в окне "original_align" представлено выравнивание в том виде, в котором было открыто изначально, в окне "new_align" представлено обработанное выравнивание.

Построение филогенетического дерева

Прежде всего для построения дерева было решено несколько изменить выравнивание: удалить из него N-концевую вставку (позиции 1-193). Это новое выравнивание представлено в проекте в окне "for_tree". Таким образом, далее используется уже только хорошо выровненная часть выравнивания. Дерево было построено программой MEGA, методом Neighbor-Joining, со 100 бутстреп-репликами. В связи с техническими неполадками (программа не смогла сделать PNG-изображение, а в PDF-версии оказалась сделана показана только его часть) изображение дерева получить не удалось. Вместо него здесь представлен файл в формате mts - mega tree session. Этот файл открывается программой MEGA (File -> Open A File/Session) и показывает построенное дерево с величиной поддержки бутстрэпом ветвей. Ссылка на сам файл.

На построенном дереве зеленым цветом выделены листья - представители ортологического ряда K1683. Несмотря на то, что их в несколько раз меньше, чем представителей другого ряда, все, кроме одного (A0A0U2W3I6_9BACL) выделяются в отдельную кладу с очень хорошей поддержкой (99). Оставшаяся последовательность расположена наиболее близко к этой кладе, однако, исходя из дерева, близко родственна с последовательностью другого ряда C6D261_PAESJ (поддержка 95). Итак, все же можно сказать, что дерево разбито на клады, соответствующие двум ортологическим рядам, с хорошей поддержкой.

Про длину ветвей можно сказать только то, что она разнится для ветвей дерева. Фактически, дерево разбивается на множество маленьких клад с похожими длинами ветвей. Тем не менее, существенно выделяющихся тривиальных ветвей на дереве обнаружено не было.