На главную страницу четвертого семестра.

Дополнительные задания.

Задание № 1. Описание связей между терминами в онтологиях GO.


На странице GOA для записи UniProt'a, относящейся к белку ARGB_ECOLI получено изображение графа, показывающего связи между терминами GO, ассоциированными с этой записью UniProt P0A6C8.



На рисунке выше изображен фрагмент графа, показывающий связи термина "метаболизм аминокислот" (amino acid metabolic process) с тремя родительскими терминами: "метаболизм аминокислот и их производных" (amino acid and derivative metabolic process), "метаболизм COOH-кислот" (carboxylic acid metabolic process) и "метаболизм аминов" (amine metabolic process). Все связи между терминами являются связями типа is_a, что указывает на то, что термин "метаболизм аминокислот" является частным случаем каждого из перечисленных биохимических процессов. Действительно, определение термина "метаболизм COOH-кислот" включает в себя химические реакции и биохимические пути, в которых участвуют карбоновые кислоты, а также любые другие органические кислоты, содержащие одну или более карбоксильных групп -COOH или анионов COO- (такое "размытое" определение видимо связано с тем, что кроме эндогенных органических кислот, которые синтезируются и метаболизируются клетками для поддержания их активности и жизнедейтельности, организм имеет специфические системы для метаболизма и утилизации экзогенных кислот [например, лекарственных препаратов], воспринимаемых им как ксенобиотики. Примером таких систем может являться цитохром Р-450, который является окислительным агентом, находящимся в митохондриях клетки, и участвует в окислении несвойственных организму субстратов, что повышает их гидрофильность и способствует выведению через извитые канальцы почек в мочу). Другой термин "метаболизм аминов" разъясняется следующим образом: к нему относятся химические реакции и биохимические пути, включающие субстраты, содержащие свободные или замещенные амино-группы. Третий родительский термин "метаболизм аминокислот и их производных" описывает химические реакции и биохимические пути, включающие аминокислоты, органические кислоты, содержащие одну или более амино-групп, а также производные аминокислот (эфиры, ангидриды, и др. биологически активные вещества). А к собственно "дочернему" термину "метаболизм аминокислот" относятся химические реакции и биохимические пути, задействующие аминокислоты, органические кислоты, содержащие одну или более амино-групп.
Как видно один дочерний термин описывает метаболизм аминокислот, содержащих -COOH группу (термин "метаболизм COOH-кислот"), а также аминогруппу (термины "метаболизм аминов", "метаболизм аминокислот и их производных"), что говорит о том, что данный термин является производным этих трех терминов, отчего используется связь "is_a" между этими элементами графа.




На рисунке выше показан фрагмент графа, включающий в себя связи типов is_a и part_of_a. Родительскими по отношению к дочерниму термину "цикл мочевины, промежуточный этап метаболитических реакций" (urea cucle intermediate metabolic process) являются термины "метаболитический процесс" (metabolic process) и "метаболизм азот-содержащих соединений". При этом первый из родительских терминов связан с дочерним отношением is_a, а второй — part_of_a. Обратимся к определениям данных терминов. Итак, дочерний термин "цикл мочевины" относится к химическим реакциям и биохимическим путям, включающим любой из промежуточных соединений - участника цикла мочевины. Данный циклический метаболитический путь трансформирует массу азот-содержащих молекул субстрата в определенный С-компонент (содержащий измененный углеводородный каркас субстрата) и аммонийную соль (N-компонент), который затем удаляется посредством синтеза мочевины (хотя у некоторых эукариотических организмов (птицы, частично рыбы) азот удаляется через образование мочевой кислоты, что связано с тем, что мочевина - легко растворимый в воде компонент, и при её удалении из организма, также теряется вода, а птицам, в особенности, большая потеря воды грозит гибелью от повышения осмотичности тканей и клеток, для чего у них в ходе эволюции выработался способ удаления токсического ("лишнего") азота посредством плохо растворимой в воде мочевой кислоты). Родительский термин "метаболизм азот-содержащих соединений" относится к химическим реакциям и биохимическим путям, включающим различные органические и неорганические соединения; включает в себя реакции фиксации азота организмом, нитрификацию и денитрификацию, ассимиляторное и/или дессимиляторное восстановление нитратов, а также все возможные промежуточные реакции между переходом "органический азот" -> "соль аммония". причем дочерний термин соотносится как "part_of_a" с термином "метаболизм азот-содержащих соединений". Это можно объяснить следующим образом: опираясь на произведенное описание обоих терминов, легко установить, что дочерний термин является частью родительского (фактически, описание совпало с одним "описательным множеством" родительского термина), но родительский термин не всегда может содержать этот дочерний. Действительно, так существуют азотфиксирующие бактерии, которые переводят атмосферный N2 в NH2-группу аспартата или глутамата (из оксалоацетата и альфа-кетоглутарата соответственно; также для этих целей возможно использование самих аминокислот, правда тогда азот фиксируется в боковую NH2-группу, с образованием аспарагина и глутамина соотвественно;). Но эти бактерии совершенно не имеют механизмов утилизации азота с образованием солей аммония (цикл мочевины), то есть в терминах GO, этот процесс можно описать как раз приведенной на рисунке выше графом. Еще одним ярким примером являются клетки эукариот (и нас в частности). Действительно, в нашем организме совершенно отсутствуют какие-либо механизмы фиксации азота (нет особых ферментов - нитрогеназ, обуславливающих этот процесс, но имеющихся в некоторых бактериях и сине-зеленых водорослях), зато есть в "арсенале" огромный запас разнообразных механизмов его утилизации и метаболизирования: синтез аминокислот, аминосахаридов, хитиновых оболочек и пектиновых полимеров; сиаловых кислот и др. То есть, опять же в терминах GO, такая ситуация может быть представлена в виде соответствующего вида связей в графе, представленном на рисунке выше.
Третий термин GO "метаболитический процесс" обозначает биохимические процессы, вызывающие множество химических изменений в живых организмах. Состоит из двух основных процессов: катаболизма (разрушение) и анаболизма (образование). Метаболизм зачастую трансформирует малые по размерам молекулы, но также включает в себя процессы ДНК-репарации и репликации, синтез и деградацию белка. Очевидно, что дочерний термин "цикл мочевины, промежуточный этап метаболитических реакций" является производным этого родительского термина, так как все участники цикла мочевины - малые по размерам молекулы, вовлеченные в цикл превращений, вызывающий определенные химические изменения в компартменте клетки. Фактически, дочерний термин удалось описать определением родительского термина. Следовательно, эти два термина соотносятся друг с другом как "is_a".

В целом, в качестве общего вывода, можно отметить следующее. Наличие более чем одной связи дочернего термина с более чем одним родительским является индикатором того, что терминология GO никак не может быть использована для классификации белков и других генетических продуктов. Действительно, удобная и справедливая классификация всегда подразумевает наличие единственной связи между родительскими и дочерними классифицируемыми объектами.

Задание №2. Описание функции белка в БД EcoCyc.


Дополнительная информация о функциях белка ARGB_ECOLI была получена из БД EcoCyc. На странице EcoCyc был произведен поиск записей, относящихся к гену argB E.coli и его продукту так, как это предложено в "Guide tour": через имя гена. В результате получено две страницы: одна относится к описанию гена argB, а другая - к описанию соответствующего белка, причем отчет составлен о мономере белка, который на самом деле димерен. EcoCyc более полно описывает функции белка, чем GOA. Так, описание гена argB достаточно обширно и всеобъемлюще: кроме указания синонимов названия гена в других БД, определению функций генетического продукта согласно системе Superclasses и GO (последняя содержит три термина из трех онтологий GO: GO:0005737 - cytoplasm, GO:0003991 - acetylglutamate kinase activity, GO:0006526 - arginine biosynthesis, видимо выбираемых достаточно произвольно, хотя интересно заметить, что последние два термина в графе отношений терминов в базе GOA оба имеют по два родительских термина). Также указано положение гена в полном геноме бактерии, длина гена (что интересно, приводится длина гена без указания кодона инициаторного метионина и стоп-кодона!! - длина 771 п.н. (это к вопросу о том, как все же выбирать длину гена: брать или не брать в учет эти краевые кодоны, особенно если изучать эволюцию последовательностей: ведь мутации в кодоне инициаторного метионина могут привести к выпадению из эволюции последовательности, а мутация в стоп-кодоне - к непредсказуемым результатам. Интересно, чем руководствовались создатели БД EcoCyc при указании такой длины гена!!!). Затем есть частичное описание генетического продукта - фермента - катализируемой им реакции, биологического пути, в котором задействован N-ацетилглутамат киназа, но также для гена указаны возможные паралоги и их положение в геноме (в моем случае это argB и argA), а также есть ссылки на ортологичные гены в других организмах и схема регуляции экспрессии гена (или оперона, если такое явление имеет место быть). Очень интересно выглядит приводимая схема оперона (локальное окружение гена argB), на котором указаны продукты, оказывающие влияние на степень экспрессии гена argB.
Генетический продукт - фермент N-ацетилглутамат киназа - также очень подробно и ясно охарактеризован. Сперва указаны синонимы названия фермента, а также составлено краткое описание фермента: ацетилглутамат катализирует вторую реакцию в орнитиновом и аргининовом биосинтезе (фактически, в орнитиновом цикле). Активность фермента зависит от наличия кофермента - АТФ, с помощью которого фермент фосфорилирует субстрат N-ацетил-L-глутамат с образованием N-ацетилглутамил-фосфата. В качестве структурного аспекта, указано, что фермент является гомодимерным белком. Также приведено название метода установления каталитического механизма - сайт-специфический мутагенез. Из дополнительных сведений о ферменте, также имеются данные о длине последовательности, молекулярном весе белка. Есть ссылки на термины GO и MultiFun и классификацию семейств белков Pfam, структурные файлы банка PDB.

Вопрос Данные EcoCyc (дополнительные сведения)
Где? нет дополнений
Зачем, для чего? биосинтез орнитина и аргинина, важного посредника в метаболизме азота (орнитин)и важной аминокислоты - элементарного блока белков (аргинина).
Молекулярный механизм? N-acetyl-L-glutamate + ATP = N-acetylglutamyl-phosphate + ADP. Сам фермент является гомодимером (его четвертичная структура).
Специфичность? альтернативные субстраты неизвестны

Задание №3. Исследование качества аннотации группы белков, принадлежащих аппарату Гольджи, в UniProt.


Согласно данным страницы, посвященной расшифровке кодов способа доказательства молекулярных функций, биологических процессов и клеточных компонентов, описывающих определенный термин в консорциуме GO, составлена следующая таблица:

Код. Перевод значения. Тип подтверждения.
IC (Inferred by Curator) термин присвоен куратором по данным других аннотаций GO, для которых имеются доказательства. компьютерное
IDA (Inferred from Direct Assay) термин присвоен на основе непосредственно проведенного эксперимента. Причем это код может указывать на эксперимент по установлению функции, биологического процесса или клеточного компонента, в котором работает генетический продукт. На тип онтологии указывает GO термин. Также термин используется в тех случаях, если четко зафиксирована "связывающая" (binding) функция белка/генетического продукта. экспериментальное
IEA (Inferred from Electronic Annotation) термин присвоен на основе поиска сходства с последовательностями с известной GO аннотацией; либо аннотация присвоена по записям баз данных. В обоих случаях присвоение термина не было проверено куратором компьютерное
IEP (Inferred from Expression Pattern) термин присвоен на основе экспериментального измерения уровня экспрессии гена в разных условиях (Northern blot); или по данным уровня экспрессии белка (Вестерн блот). Использовать код с осторожностью! экспериментальное
IGC (Inferred from Genomic Context) термин присвоен на основе анализа окружения гена в геноме. Такой тип доказательства применим для генов, например входящих в один оперон (у бактерий). При этом важно, чтобы другие члены этого оперона имели строгое доказательство функции, на основе литературных данных. компьютерное
IGI (Inferred from Genetic Interaction) термин присвоен на основе анализа последствий мутаций по нескольким генам или изучения экспрессии более одного гена/генного продукта. Также код используется для описания следующих случаев: мутации в гене А позволяют выяснить функцию, биологический процесс, или клеточный компонент для другого гена В. экспериментальное
IMP (Inferred from Mutant Phenotype) термин присвоен на основе анализа последствий мутаций по одному гену. Также термин присваивается на основе экспериментов с ингибиторами трансляции или активности белка, если ген сложно мутировать. экспериментальное
IPI (Inferred from Physical Interaction) термин присвоен на основе экспериментов по изучению взаимодействия продуктов гена с другими молекулами (ионами, комплексами). Часто, в термине изучаемого белка указывается идентификатор "другой" молекулы, участвующей во взаимодействии. экспериментальное
ISS (Inferred from Sequence or Structural Similarity) термин присвоен на основе выравнивания последовательностей, сравнения со структурами белков/генетических продуктов с известной аннотацией GO. Также термин может присваиваться на основе свойств последовательности, таких как композиция определенных элементов (или может известных доменов); присвоение термина проверено куратором компьютерное
NAS (Non-traceable Author Statement) термин присвоен на основе результатов непроверенных исследований; записей баз данных, не подтвержденных публикациями
(недостоверное)
ND (No biological Data available) термины, обозначающие неизвестные функции (molecular function unknown), необнаруженный клеточный компонент или невыясненный биологический процесс, в котором задействован данный генетический продукт.
RCA (Inferred from Reviewed Computational Analysis) термин присвоен на основе результатов биоинформатического исследования, не использовавшего последовательности генов. Например, предсказания функций, основанных на экспериментах большого масштаба (целого генома). Результаты эксперимента пересмотрены куратором. компьютерное
TAS (Traceable Author Statement) термин присвоен на основе результатов проверенных исследований или общеизвестных сведений: из учебной литературы или словарях. экспериментальное
NR (Not Recorded) код подтверждения не присвоен


Итак, как видно из выше приведенной классификации, всего имеется пять кодов, обозначающих компьтерные способы доказательства функций: IGC, RCA, ISS, IEA, IC. Эти пять кодов затем использовались при поиске "чисто компьютерных" аннотаций GO в UniProt'e для белков аппарата Гольджи (GO:0005794). Для построения верного запроса, эксплуатировались определенные свойства записи терминов в GO и UniProt'e. Характерную запись можно видеть на странице обязательных заданий, здесь же приведены необходимые свойства:
Итак, чтобы определить количество "чисто компьютерных" аннотаций GO в UniProt'e для белков аппарата Гольджи, на странице SRS были проведены следующие операции:



©Володя Рудько