На страницу четвертого семестра


Функции генов и их продуктов. Онтологии, GO
(дополнительное задание)



  1. Описание связей между терминами в онтологиях GO
    В БД GOA мы нашли список терминов GO, ассоциированным с записью UniProt P00968 (белок - большая цепь карбамоилфосфатсинтазы). Мы получили граф, показывающий связи между терминами (для получения графа мы отметили только десять терминов, так как для большего количества граф не строится, поэтому мы не учли еще три, которые являются более общими, явно "родительскими").
    На полученном графе можно видеть частые примеры двух родительcких терминов у одного термина, причем родители могут очень далеко находится от "потомков", например, у "метаболизма аргинина" один из родительских териминов "промежуточный метаболизм мочевины" находится в самом верху графа.
    Из списка терминов, ассоциированным с записью P00968, также можно выделить те, которые имеют двух родителей. Например, термин "биосинтез пиримидинов" (GO 0006221) происходит от "метаболизм пиримидинов" (GO 0006220)) и "биосинтез нуклеотидов" (GO 0009165). Иллюстрация данного примера:


    Этот же пример можно отнести к типам связи "is a", то есть наш термин описывает биосинтез пиримидинов, который является частным случаем биосинтеза нуклеотидов, в то же время биосинтез можно включить, как стадию, в метаболизм пиримидинов. Здесь из родительских терминов следует наш термин, так же термин-"потомок" подразумевает под собой термин-"родитель".

    Есть даже несколько примеров терминов (не из списка, ассоциированного с записью P00968) имеющих трех родителей. Например, "метаболизм аминокислот" (GO 0006520)), с тремя "родителями": "метаболизм аминокислот и производных" (GO 0006510)), "метаболизи карбоновых кислот" (GO 0019752)) и "метаболизм аминов" (GO 0009308)):



    Связь типа "part of" - здесь из родительского термина не всегда следует термин-"потомок". Пример такой связи на нашем графе термин "промежуточный метаболизм мочевины" (GO 0000051)) с родительским термином "метаболизм азотосодержащих веществ" (GO 0006807)). Под метаболизмом азотосодержащих веществ" не всегда подразумевается цикл мочевины; это также может быть метаболизм аминокисолот, аминов:



    Можно заметить, что, чем ниже находится термин в графе, тем реже встречаются случаи связи "part of", что вполне объяснимо - значения терминов становятся гораздо уже.

  2. Описание функции белка в БД EcoCyc
    Мы изучали описание функции нашего белка - большой цепи карбамоилфосфатсинтазы - в БД EcoCyc, являющейся энциклопедией генов и метаболизма организма Escherichia coli K-12.
    Мы добавили к таблице, созданной в обязательном задании, столбец с информацией из данной базы данных.

      Онтология (GO имя) Количество ассоциированных терминов GO Краткий ответ на вопрос EcoCyc
    Где? Информация должна была бы содержаться в "component", но в нашем случае здесь нет ни одной ссылки
    Зачем, для чего? процесс (process) 4 (однако ссылок 6, то есть для одного и того же термина есть несколько документов с необходимой информацией) Участвует в синтезе аргинина и пиримидинов. Нет дополнительной информации
    Молекулярный механизм? функция (function) 2 (7) Катализируют АТФ-зависимую реакцию образования карбамоилфосфата, промежуточного продукта синтеза аргинина и пиримидинов, из L-глутамина в присутствии ионов HCO3-. Действует в комплексе с малой (глутаминовой) цепью карбамоилфосфатсинтазы. Амидотрансферазный домен малой цепи гидролизирует глутамин с образованием аммония через стадию образования промежуточного продукта, содержащего тиоэфирную связь.. Аммоний мигрирует через внутреннюю часть белка, где взаимодействует с карбоксифосфатом. Карбоксифосфат образуется в результате фосфорилирования бикорбаната молекулой АТФ в сайте, находящемся в N-концевой части большой цепи карбамоилфосфатсинтазы. В результате взаимодействия карбоксифосфата с аммонием происходит образование карбамата. Данный интермедиат переносится к С-концевой части большой цепи карбамоилфосфатсинтазы, где фосфорилируется второй молекулой АТФ с образованием карбамоилфосфата. В приводимой реакции указаны ионы CO32-, а не HCO3-, которые были в реакции, найденной нами прежде в UniProt Enzyme Code (обязательное задание), но это объясняется тем, что реакции из EcoCyc две молекула воды, а не одна, как в UniProt Enzyme Code
    Специфичность? функция (function) 5 (11) Связывается с нуклеотидами, АТФ, ионами металлов (конкретно с катионами магния), с белком (подразумевается малая цепь карбамоилфосфатсинтазы, с которой образуется комплекс) Кофакторами кроме ионов магния, также являются ионы марганца, кобальта, кадмия, цинка.


    Также здесь приведена информация об игибиторах белка. Конкурентным ингибитором являются цианат (CHNO), который взаимодействует с HCO3- с образованием карбамата. Аллостерическим ингибитором является УМФ. Также приведен ряд веществ, являющихся ингибиторами с неизвестным механизмом действия.
    Дополнительно, перечислены активаторы белка: ионы калия, действующие по неизвестному механизму, L-орнитин, инозин-5'- фосфат и ионы аммония.
    Приведены также ссылки на различне статьи, однако дата их создания очень давняя.

  3. Исследование качества аннотации группы белков в UniProt
    Среди кодов доказательств можно выделить экспериметальные и электронные (компьютерные).
    К экспериментальным относятся:

    К электоронным относятся:

    Остальные коды не рассматриваются, так как их нельзя отнести ни к одной, ни к другой группе.
    В данном заднии нашей задачей было определить долю компьютерных аннотаций среди белков аппарата Гольджи у организма Drosophila melanogaster.
    Вначале мы ищем общее количество белков аппарата Гольджи. Нам необходимо получить все записи в одном файле в виде списка. Для этого мы выбираем в "Create a view" только "DBxref" (для удобства), "Organism name", представляем все данные в виде списка - "Display as a list". Запрос выглядит так:
    ((([uniprot-Organism:Drosophila*] & [uniprot-Organism:melanogaster*]) | [uniprot-Organism:Drosophila melanogaster*]) & ((([uniprot-DBxref_:GO*] & [uniprot-DBxref_:C:*]) & [uniprot-DBxref_:*Golgi*]) | [uniprot-DBxref_:GO C: *Golgi*]))

    Мы сохранили полученный список в одном файле Golgi.txt.
    С помощью программы grep мы нашли количество строк, в которых есть слово GO:. Была использована команда:
    grep -c GO: Golgi.txt
    Всего 619 строк с индетификатором GO.
    Далее находим количество строк с кодами скриптом:

    grep -c IEA: Golgi.txt // 38

    grep -c IGC: Golgi.txt // 0

    grep -c ISS: Golgi.txt // 72

    grep -c RCA: Golgi.txt // 0

    grep -c IDA: Golgi.txt // 165

    grep -c IEP: Golgi.txt // 4

    grep -c IMP: Golgi.txt // 136

    grep -c IGI: Golgi.txt // 23

    grep -c IPI: Golgi.txt // 25

    Для полноты картины аналогичными командами были найдено количество строк с кодами: TAS - 61; NAS - 90; IC - 5.
    Таким образом, коды электронных доказательств составляют 17,77% от всего количества индетификаторов. Для кодов экспериментальных доказательств - 57,02%. Казалось бы, мы получаем противоречие с результатами обязательного упражнения - белки данного организма, по-крайней мере, белки аппарата Гольджи, неплохо изучены, большинство доказательств экспериментальные, причем IDA - самое лучшее доказательство - самое частое. Однако в этом задании параметры поиска были менее строгие - наличие всех трех индетификаторов GO мы не учитываем. Следует также помнить, что коды доказательств могут стоть как и у "процесс", "функция", которые являются более важными, чем "компонент". Если выполнить команды, то мы получим:

    grep -c GO:.*P:.*IDA: Golgi.txt // 24

    grep -c GO:.*F:.*IDA: Golgi.txt // 37

    grep -c GO:.*C:.*IDA: Golgi.txt // 104

    То есть, 63,03% кодов IDA приходится на "компонент", а не на более важные "функцию" и "процесс". Таким образом, полученные данные относительно количества надежных кодов нельзя воспринимать однозначно.
    Среди экспериментальных доказательств после IDA по числу идет IMP. Здесь, с одной стороны результаты лучше, так как 134 доказательства проиходятся на "процесс", однако функций опредленных этим методом нет.
    Таким образом, число электронных доказательств для данной группы белков Drosophila melanogaster сравнительно невелико. Действительно, организм Drosophila melanogaster исследуется уже более ста лет, является одним из самых распространенных модельных организмов. Легко получаемы из дикой природы, плодовиты. Геном организма небольшой, мутации могут быть вызваны точно в нужных генах. Затраты на хранение и оборудование невелики (по данным 2can), поэтому большинство доказательств экспериментальные.



©Шахбатян Римма Рубеновна