На главную страницу четвертого семестра.

Метаболические пути. KEGG. Дополнительные упражнения.

Задание № 1. Что такое "Reference map (KO)"?


При переводе метаболитической карты, описывающей катаболизм лейцина, валина и изолейцина, в режим "Reference map (KO)" некоторые ферменты оказались выделенными синим, а некоторые остались белыми. По данным страницы "help" специальная раскраска названий ферментов является ссылкой на содержание определенных последовательностей генов в БД КО (KEGG Orthology), БД KEGG GENES, в других БД генов, в зависимости от типа раскраски. Так, при отображении карта в режиме "Reference map (KO)" синяя окраска названий ферментов является ссылкой на соответствующую запись в базе данных KEGG ортологов (КО). Если названия ферментов не окрашены, то для этих белков (или их генов) нет записей КО. Так на примере фермента E1.2.4.4, при нажатии на ссылку на запись КО, появлялась страница со тремя таблицами. Причем в первой из них содержались данные, относящиеся к целому ферменту :
Аналогичные данные содержались и в двух последних таблицах, но эти данные относились к отдельным субъединицам белка: альфа- и бета-цепям. Причем ссылок на ортологичные последовательности в этих таблицах содержалось куда больше, чем ссылок на целый белок. Видимо это связано с тем, что отдельная субъединица может выполнять определенную функцию (например, субстрат связывающую или каталитическую) и встречаться в составе самых разных ферментных комплексах: если только требуется её функция для работы такого фемента.
Каждая ссылка на название ортологичного гена содержала аминокислотную последовательность белка, нуклеотидную последовательность гена, ссылки на другие геномные и белковые БД (UniProt, TIGR, и тд), БД белковых семейств (Pfam), код доступа KEGG, определение генного продукта, путь, в котором он задействован, и ортологию с другими генами.

Задание № 2. Проверка наличия (или отсутствия) кратчайшего пути катаболизма лейцина до ацетил-КоА у Escheriсhia coli K-12


При выполнении обязательного задания №3 оказалось, что у Е.coli нет исследуемого пути по данным KEGG. Этот факт иллюстрирует следующий рисунок:



Список отсутствующих ферментов, в который включены только те ферменты, которых действительно не хватает для обеспечения катаболитического пути (то есть первые два фермента, являющиеся альтернативными для существующего у E.coli фермента 2.6.1.42, в этот список не входят), выглядит так:

Ферменты, отсутствующие у Е.coli и необходимые для катаболизма лейцина.
1.2.1.25 или 1.2.4.4; 
1.3.99.10 или 1.3.99.3;
6.4.1.4; 
4.2.1.18; 
2.3.3.10 или 4.1.3.4 


Полученный список можно представить в виде одной логической формулы, состоящей из названий ферментов, необходимых для катализирования наименьшего количества стадий процесса, но которые отсутствуют в геноме кишечной палочки по данным KEGG. (1.2.1.25 | 1.2.4.4) & (1.3.99.10 | 1.3.99.3) & 6.4.1.4 & 4.2.1.18 & (2.3.3.10 | 4.1.3.4)
Вообще, если объективно оценить количество генов ферментов, которые неаннотированы, и соответственно сделать заключение о возможности реализации исследуемого биохимического пути, то можно с большой доей уверенности утверждать о том, что в бактерии E.coli не возможна реализация катаболитического пути лейцина: из 12 ферментов, катализирующих кратчайший биохимический путь, гены аннотированы лишь для двух из них. Конечно, довольно существенный процент последовательностей генов остается с неизветсной функцией, но вероятность того, что все десять недостающих генов для реализации метаболитического пути, очень мала (учтем технологический прогресс в области исследования функций генов, прямые генноинженерные методики по исследованию и установлению белковых продуктов, то можно прийти к выводу, что не определить ферменты, которые могли бы играть роль в биохимических реакциях, очень сложно). Но все же был произведен поиск по разным базам данных на вопрос нахождения в них возможных аннотированных последовательностей белков (или генов), выполняющих функцию недостающих ферментов в метаболитическом пути KEGG.
Для начала были исследованы данные записей EcoCyc - все же эта база данных создавалась специально для хранения последовательностей генов, белков и другой полезной информации для бактерии E.coli. Переходя по ссылке "Pathways" и далее на страницу ктаболизма аминокислот, было найдено, что также, как для KEGG, в БД ЕсоСус отсутствуют данные о катаболизме лейцина, валина и изолейцина. На этот счет примечательно отметить тот факт, что в бактерии существуют метаболитические пути противоположного характера: анаболизм этих кислот достоверно известен и аннотирован. Также был произведен поиск по ЕС-номеру в поле "Quick search". В это поле заносились все восемь ЕС исследуемых ферментов, в результате обнаружено следующее:
Для ферментов 1.2.1.25, 1.2.4.4, 1.3.99.10, 6.4.1.4, 4.2.1.18, 2.3.3.10, 4.1.3.4 не найдено ни одной записи.
Для фермента 1.3.99.3 достоверно известно следующее:
фермент обладает изовалерил-КоА дегидрогеназной активностью (доказано проведением экспериментов в 1004 году группой исследователей под руководством Landini). Ген белка аннотирован и ему присвоено имя aidB. Также предсказана компьютерными методами (сравнительным анализом) возможная активность белка: ацил-КоА дегидрогеназная. Если учесть, что последняя функция проявляется в метаболизме жирных кислот (конкретнее в катаболизме), то фермент оказывается мультифункциональным с различной субстратной специфичностью.
Для фермента 1.3.99.10 показаны совершенно аналогичные функции. Видимо, это является следствием того, что согласно схеме KEGG фермент 1.3.99.10 катализирует реакцию в одну сторону, тогда как фермент 1.3.99.3 - в обе стороны. Очевидно, экспериментально не удалось разграничить эти роли, поэтому одному и тому же ферменту было приписано два разных ЕС номера, различающихся по последней цифре.
Если сравнить идентифицированные функции белков с метаболитической картой KEGG, то можно убедиться в том, что они точным образом описывают катализируемую реакцию. Итак, по результатам проведенного поиска можно сделать вывод: специализированная БД ЕсоСус содержит более новые данные о недавно аннотированных генах, ферментных системах. Хоть результаты обеих баз данных насчет катаболитического пути лейцина совпадают (указано отсутствие этого пути) но в БД ЕсоСус уже имеются данные как минимум о двух ферментах этого пути, катализирующих еще одну (в добавление к уже известным двум стадиям) реакцию в этой цепочке
Поиск записей об интересующих белках также был проведен на сайте БД Brenda. Выбор БД основан на том, что эта база данных является довольно полным сборником практически всех аннотированных и обследованных белков. В результате проведения поиска записей для неизвестных ферментов (по данным KEGG) не было найдено ни одного белка с такими же функциями. Видимо, это по большому счету связано с тем, что в БД Brenda содержатся данные о действительно выделенных и изученных ферментах.
Также было интересно посмотреть содержание БД UniProt на счет этих белков. С помощью сервера SRS и запроса ([uniprot-ID:*_ECOLI] & ((((((([uniprot-ECNumber:1.2.1.25] | [uniprot-ECNumber:1.2.4.4]) | [uniprot-ECNumber:1.3.99.10]) | [uniprot-ECNumber:1.3.99.3]) | [uniprot-ECNumber:6.4.1.4]) | [uniprot-ECNumber:4.2.1.18]) | [uniprot-ECNumber:2.3.3.10]) | [uniprot-ECNumber:4.1.3.4])) не было найдено ни одной записи об этих белках в БД UniProt.
Итак, пока есть данные (хоть и небольшие) для ферментов третьей стадии кратчайшего пути катаболизма лейцина, которые отсутствуют в БД KEGG, но имеются в БД ЕсоСус. Этот факт наглядно демонтстрирует возможность запаздывания обновления данных о метаболизме кишечной палочки в более обширной БД KEGG, по сравнению со специализированной БД ЕсоСус.
Но проводя запросы в выше приведенных БД, в основном поиск проводился для белковой последовательности. Но возможна такая ситуация: ген белка аннотирован компьютерными методами, но результаты такого сравнительного анализа не были проверены кураторами белковых баз данных, отчего никаких ссылок на возможный генный ресурс у них нет. Поэтому был проведен поиск последовательностей генов данных ферментов в полном геноме кишечной палочки. Для этого на сервере NCBI в базе данных "Gene" был произведен поиск аннотированных генов в полном геноме Escherichia coli. Для этого использовалась следующая команда:
"Escherichia coli"[orgn] AND N.N.N.N[EC]
где вместо N.N.N.N вставлялся ЕС код каждого фермента. Возможность проведени такого поиска основана на том, что в аннотированных генных последовательностях всегда приводят классификацию по ИЮПАК, если последовательность гена кодирует фермент. Так в результате поиска были найдены следующие гены:
Для фермента 1.3.99.3 - ген fadE.
Больше ни для одного фермента аннотированных генов обнаружено не было.
Итак, картина в общем выглядит следующим образом: практически все не аннотированные ферменты в KEGG участвующие в катаболизме лейцина и не обнаруженные у кишечной палочки (за исключением 1.3.99.3 [и вероятно 1.3.99.10, хотя он идентичен с предыдущим], для которого был найден аннотированный ген в других БД), их белковые последовательности не обнаруживаются в БД UniProt, EcoCyc, Brenda - белковых и ферментных базах данных; также гены практически всех данных ферментов также не аннотированны на сервере NCBI в БД GENE (соответственно и на сервере EMBL, так как GENEBANK и EMBL взаимно друг друга пополняют новыми последовательностями). Остается только предполагать следующее:



©Володя Рудько