Главная страница > Четвертый семестр > Функции генов и их продуктов 

Функции генов и их продуктов


   Поиск термина в словарях GO

   Поиск термина Gene Ontology (GO), описывающего локализацию белков в аппарате Гольджи, был проведен с помощью AmiGO (инструмент для поиска и просмотра информации БД GO). Для этого в поле "Search for genes, proteins or GO terms" был введен запрос "golgi", и переключатель, расположенный ниже, установлен в положение "GO term or ID" (поиск терминов). Найденные термины были отфильтрованы по принадлежности к словарю "Cellular component". Среди 29 оставшихся терминов GO для дальнейшего рассмотрения выбраны два наиболее подходящих: Golgi apparatus (GO:0005794) и Golgi apparatus part (GO:0044431).

   Поиск необходимого термина был повторно проведен с использованием браузера (ссылка "Browse the Gene Ontology with AmiGO"). В дереве терминов GO сначала были выбраны относящиеся к словарю "Cellular component", среди них — термины, дочерние по отношению к organelle (GO:0043226), и т.д. Термины, связанные с родительскими отношением part_of_a, отмечены в дереве браузера флажком "P", отношением is_a — флажком "I".

   Все термины GO, описывающие локализацию белков в отдельных частях аппарата Гольджи (например, в мембране — Golgi membrane или в просвете — Golgi lumen), являются дочерними по отношению к Golgi apparatus part. При этом термин Golgi apparatus part связан с термином Golgi apparatus отношением part_of_a, то есть отдельные элементы аппарата Гольджи не являются обязательными для данной органеллы (например, комплекс GET, осуществляющий ретроградный транспорт в ЭР и выявленный только в дрожжевых клетках). Термин Golgi apparatus может быть ассоциирован с белками, не относящимися к Golgi apparatus part (c термином Golgi apparatus ассоциировано 1622 гена, а с термином Golgi apparatus part в два раза меньше — 820, возможно, различие возникает из-за белков, локализация которых в определенной части аппарата Гольджи неизвестна).

   Таким образом,

  • наиболее полно описывает локализацию белков в аппарате Гольджи термин Golgi apparatus — аппарат Гольджи (GO:0005794),
  • данный термин входит в состав онтологии "Cellular component" (компоненты клетки, т.е. данный словарь содержит термины, описывающие внутриклеточную локализацию белков),
  • синонимами термина Golgi apparatus являются термины Golgi и Golgi complex, сходное значение имеет термин Golgi ribbon, обозначающий аппарат Гольжди, имеющий специфическую морфологию (отдельные цистерны располагаются вокруг ядра и соединены друг с другом, такой тип морфологии характерен для интерфазных клеток млекопитающих — по данным описания термина Golgi apparatus).

   По данным GO, аппарат Гольджи представляет собой мембранную органеллу эукариотических клеток, состоящую из стопок уплощенных и лишенных рибосом компартментов. Аппарат Гольджи отличается от эндоплазматического ретикулума тем, что, как правило, имеет несколько более толстую мембрану и организован в виде характерных полукругов, одна из поверхностей которых (цис-поверхность) обращена к эндоплазматическому ретикулуму, а от другой (транс-поверхности) происходит отделение секреторных везукул. В клетках позвоночных обычно присутствует единственный аппарат Гольджи, в клетках беспозвоночных и растений — несколько таких органелл (диктиосом), разбросанных в цитоплазме. В аппарате Гольджи осуществляется процессинг белков, синтезированных на рибосомах гранулярного эндоплазматического ретикулума, включающий в себя модификацию олигосахаридной компоненты гликопротеинов и сортировку белков для дальнейшей транспортировки в различные части клетки. Выделяют три структурно-функциональных части аппарата Гольджи: цис- (вблизи цис-поверхности), транс- (вблизи транс-поверхности) и промежуточную (между двумя другими).



   Описание функций белка GlmS E.coli с помощью GOA

   Описание функций белка GlmS E.coli было проведено с использованием данных БД GO Annotation (GOA, база данных, содержащая аннотации GO белков банка UniProt). В поле запроса был введен AC белка (P17169) и выбраны параметры поиска "Search GO term names" (поиск терминов GO) и "All ontologies" (поиск по всем трем словарям). Было найдено 8 различных терминов GO, относящихся к рассматриваемому белку (некоторые термины в таблице выдачи дублированы в связи с тем, что данные были импортированы из нескольких источников, например, термин glutamine-fructose-6-phosphate transaminase [isomerizing] activity — из БД InterPro, HAMAP и UniProt enzyme code).

   Все термины, соответствующие белку GlmS E.coli, кроме термина Protein binding (GO:0005515), имеют код подтверждения (evidence code) IEA, то есть информация была получена путем автоматизированного аннотирования, основанного на поиске сходных последовательностей с известными функциями, и не была проверена кураторами. Следовательно, надежность ассоциирования данных терминов с белком недостаточно высока. Термин Protein binding имеет код подтверждения IPI (был получен путем эксперимента, связанного с изучением взаимодействия данного белка с другими молекулами), что говорит о более высокой надежности ассоциирования термина Protein binding с GlmS E.coli. Данный термин встречается в таблице выдачи два раза, так как было показано взаимодействие GlmS с двумя другими белками E.coli: IspE (4-дифосфоцитидил-2-C-метил-D-эритролкиназа, по данным GOA представляет собой фермент липидного обмена, участвующий в биосинтезе терпеноидов) и YnbD (мембранный белок с невыясненной функцией). Изучение взаимодействия GlmS E.coli с другими белками являлось частью экспериментов по восстановлению интерактома E.coli, проведенных по методу Pull-Down assay (по результатам Butland et al., 2005).

   Описание функций белка GlmS E.coli, основанное на ассоциированных с записью UniProt данного белка терминах GO, приведено в табл. 1. GlmS функционирует в цитоплазме клетки (GO:0005737). Данный белок принимает участие в промежуточном обмене: осуществляет перенос аминной группы с глутамата на фруктозу-6-фосфат, при этом продуктом реакции является изомер фруктозамин-6-фосфата — глюкозамин-6-фосфат, то есть GlmS также является изомеразой (GO:004360). Фермент стереоспецифичен по обоим субстратам: работает только с L-глутаматом и D-фруктозой-6-фосфат (GO:004360).


Табл. 1. Описание функций белка GlmS E.coli.


Вопрос

Онтология GO Количество ассоциированных терминов GO Краткий ответ на вопрос
Где? Component 1 в цитоплазме
Зачем, для чего? Process 3 биосинтез углеводов и метаболизм глутамина
Молекулярный механизм? Function 4 L-глутамин + D-фруктоза-6-фосфат = L-глутамат + D-глюкозамин-6-фосфат

Специфичность? Function 4 L-глутаминD-фруктоза-6-фосфаттрансаминаза




   Поиск по идентификаторам GO в БД UniProt с помощью SRS

   Результаты поиска по протеому Mus musculus приведены в табл. 2. Приблизительно 22% записей белков имеют идентификаторы всех трех онтологий, то есть функции большинства белков Mus musculus в настоящее время неизвестны или выяснены не до конца (вероятно, последовательности большинства таких белков были получены путем транслирования нуклеотидных последовательностей). Около 12% белков аппарата Гольджи Mus musculus имеют только самые хорошие доказательноства функций (экспериментальные), то есть функции большинства белков были установлены косвенными методами (например, путем поиска белков с известными функциями, имеющими сходные последовательности).


Табл. 2. Протеом Mus musculus. Результаты поиска в UniProt 21.03.2007.


  Количество записей Запрос
Всего 65068 (([uniprot-Organism:mus*] & [uniprot-Organism:musculus*]) | [uniprot-Organism:mus musculus*])
С идентификаторами трех онтологий GO 14577 ((([uniprot-Organism:mus*] & [uniprot-Organism:musculus*]) | [uniprot-Organism:mus musculus*]) & (([uniprot-DBxref_:F:*] & [uniprot-DBxref_:C:*]) & [uniprot-DBxref_:P:*]))
В том числе белки аппарата Гольджи 207 ((([uniprot-Organism:mus*] & [uniprot-Organism:musculus*]) | [uniprot-Organism:mus musculus*]) & ((([uniprot-DBxref_:F:*] & [uniprot-DBxref_:C:*]) & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:GO:0005794*]))
В том числе только с самыми хорошими доказательноствами функций (коды IDA или TAS) 26 ((([uniprot-Organism:mus*] & [uniprot-Organism:musculus*]) | [uniprot-Organism:mus musculus*]) & ((((((((((((((([uniprot-DBxref_:F:*] & [uniprot-DBxref_:C:*]) & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:GO:0005794*]) ! [uniprot-DBxref_:IC:*]) ! [uniprot-DBxref_:IEA:*]) ! [uniprot-DBxref_:IGC:*]) ! [uniprot-DBxref_:ISS:*]) ! [uniprot-DBxref_:RCA:*]) ! [uniprot-DBxref_:IEP:*]) ! [uniprot-DBxref_:IGI:*]) ! [uniprot-DBxref_:IMP:*]) ! [uniprot-DBxref_:IPI:*]) ! [uniprot-DBxref_:ND:*]) ! [uniprot-DBxref_:NAS:*]) ! [uniprot-DBxref_:NR:*]))
В том числе те, у которых встречается хотя бы один раз самое хорошее доказательство функции (коды IDA или TAS) 161 (((([uniprot-Organism:mus*] & [uniprot-Organism:musculus*]) | [uniprot-Organism:mus musculus*]) & ((([uniprot-DBxref_:F:*] & [uniprot-DBxref_:C:*]) & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:GO:0005794*])) & ([uniprot-DBxref_:IDA:*] | [uniprot-DBxref_:TAS:*]))




   Описание связей между терминами в онтологиях GO

   Рассмотрен граф, показывающий связи между терминами GO, ассоциированными с записью UniProt P17169 (GlmS E.coli). На рис. 1 изображен фрагмент графа, показывающий связи термина метаболизм аминокислот (amino acid metabolic process) с тремя родительскими терминами: метаболизм аминокислот и их производных (amino acid and derivative metabolic process), метаболизм COOH-кислот (carboxylic acid metabolic process) и метаболизм аминов (amine metabolic process). Метаболизм аминокислот является частным случаем каждого из перечисленных процессов, в связи с чем все связи между терминами представляют собой связи типа is_a. Например, помимо метаболизма аминокислот, частными случаями метаболизма аминов являются метаболизм креатина (creatine metabolic process) — мышечного акцептора "высокоэнергетического" фосфата, метаболизм сфингозида (sphingosine metabolic process) — одного из компонентов клеточных мембран, метаболизм аминогликанов (amynoglycan metabolic process) и многих других соединений, содержащих аминогруппу.

   На рис. 2 показан фрагмент графа, включающий в себя связи типов is_a и part_of_a. Родительскими по отношению к термину часть внутреннего содержимого клетки (intracellular part) являются термины внутреннее содержимое клетки (за исключением клеточной мембраны, intracellular) и часть клетки (cell part). При этом первый из родительских терминов связан с дочерним отношением part_of_a, а второй — is_a. Дочерними по отношению к термину intracellular part являются такие термины, как цитоплазма (cytoplasm) и внутриклеточная органелла (intracellular organelle), обозначающие компоненты, присутствующие в каждой клетке, а также термины, обозначающие компоненты, присутствующие только в определенных типах клеток, например хлоросома (chlrosome) — компартмент, содержащий бактериохлорофилл c и характерный только для бактерий семейства Chlorobiaceae. Таким образом, белки, ассоциированные с термином intracellular part, входят в состав внутреннего содержимого клетки (intracellular), но не являются его обязательным компонентом. Следовательно, термины intracellular part и intracellular связаны отношением part_of_a. При этом часть внутреннего содержимого клетки (intracellular part) является частным случаем части клетки (cell part), и эти два термина связаны отношением is_a (термины cell и cell part, как и intracellular и intracellular part, связаны отношением part_of_a по сходной причине).


   Рис. 1. Связи термина GO метаболизм аминокислот (amino acid metabolic process, GO:0044262) с родительскими терминами.


   Рис. 2. Связи термина GO часть внутреннего содержимого клетки (intracellular part, GO:0044424) с родительскими терминами. Отношения part_of_a показаны красными линиями, is_a — черным.




   Описание функции белка GlmS E.coli с помощью EcoCyc

   Дополнительная информация о функциях белка GlmS E.coli была получена из БД EcoCyc. Были рассмотрены две записи EcoCyc, одна из которых соответсвует гену glmS, а другая — продукту этого гена. EcoCyc более полно описывает функции белка, чем GOA. Вместо достаточно общих терминов биосинтез углеводов (GO:0005975) и метаболизм глутамина (GO:0006541) в EcoCyc точно указаны метаболические пути, в которых участвует GlmS: биосинтез аминов углеводов (GO:0046349), играющий важную роль в промежуточном обмене и являющийся составной частью биосинтеза пептидогликанов (GO:0009252) — основных компонентов бактериальной клеточной стенки и биосинтеза O-антигенов (GO:0009243) — углеводной компоненты липополисахаридов наружной мембраны (E.coli — грамотрицательная бактерия). Кроме того, в EcoCyc приведены данные о:

  • четвертичной структуре белка GlmS (гомодимер);
  • молекулярная масса, изоэлектрическая точка (pI), длина гена (1830 н.п.) и его продукта (609 а.о.);
  • паралогах GlmS (аспарагинсинтетаза B — AsnB и одна из субъединиц амидофосфорибозилтрансферазы — PurF, см. также Отчет по работе с БД Pfam),
  • некоторых ортологах GlmS из близкородственных организмов (другие штаммы E.coli и Shigella flexneri);
  • соседних генах: указано, что ген glmS принадлежит тому же опереону, что и glmU, продукт которого осуществляет другую реакция биосинтеза UDP-N-ацетил-D-глюкозамина (UTP + GlcNAc-6-P = UDP-GlcNAc + PPi); объединение генов белков, катализирующих реакции одного метаболического процесса, в единственном опероне упрощает регулирование их активности;
  • альтернативных субстратах (а именно об их отсутствии);
  • ингибиторах GlmS и механизме их действия.

   Кроме того, приведены ссылки на экспериментальные статьи, подтверждающие информацию. Таким образом, данные EcoCyc о функциях GlmS более надежны, чем данные GOA, которые преимущественно были получены путем автоматизированного компьютерного анализа, основанного на поиске сходных последовательностей с известными функциями.


Табл. 3. Описание функций белка GlmS E.coli.


Вопрос

Данные EcoCyc (дополнительные сведения)
Где? четвертичная структура: гомодимер
Зачем, для чего? биосинтез UDP-N-ацетил-D-глюкозамина, основного интермедиата биосинтеза пептидогликанов клеточной стенки и липополисахаридов наружной мембраны
Молекулярный механизм? L-глутамин + D-фруктоза-6-фосфат = L-глутамат + D-глюкозамин-6-фосфат
реакция предпочтительно направлена вправо*
Специфичность? альтернативные субстраты неизвестны


*  Вероятно, направление реакции определяется тем, что равновесие одной из следующих стадий биосинтеза UDP-N-ацетил-D-глюкозамина (UTP + GlcNAc-6-P = UDP-GlcNAc + PPi) сильно сдвинуто вправо в связи с гидролизом пирофосфата.




   Исследование качества аннотации белков mus musculus в UniProt

   В табл. 4 приведена информация о значении кодов подтверждения (evidence code). Компьютерным аннотациям соответствуют коды подтверждения IC, IEA, IGC, ISS и RCA, экспериментальным аннотациям — IDA, IEP, IGI, IMP, IPI и TAS (код подтверждения NAS соответствуют неподтвержденным аннотациям).

   С помощью SRS была определна доля компьютерных аннотаций белков из протеома Mus musculus. Для этого был проведен поиск записей БД GOA, которые:

  1. относятся к белкам UniProt,
  2. относятся к белкам Mus musculus (Tax ID 10090, по данным NCBI Taxonomy),

а затем поиск записей БД GOA, которые имеют коды подтверждения, соответствующие компьютерным аннотациям (коды IC, IEA, ISS и RCA; код IGC отсутствует в версии GOA, с которой работает SRS), и удовлетворяют указанным требованиям. Запросы SRS приведены ниже (для составления запросов использовалась форма Extended Query Form):

([goa-db:uniprot] & [goa-taxon:10090])

(([goa-db:uniprot] & ((([goa-evidence:ic] | [goa-evidence:iea]) | [goa-evidence:iss]) | [goa-evidence:rca])) & [goa-taxon:10090])

   Из 395572 аннотаций коды подтверждения компьютерных аннотаций имели 298380, то есть доля компьтерных аннотаций для протеома Mus musculus составляет приблизительно 75%. Возможно, высокая доля компьютерных аннотаций по сравнению с экспериментальными связана с тем, что:

  • компьютерные аннотирование занимает меньше времени, чем экспериментальное,
  • для проведения экспериментального аннотирования часто необходимо дорогостоящее оборудование, которое не всегда бывает доступным.

   Доля компьютерных аннотаций среди аннотаций белков аппарата Гольджи Mus musculus также была определена другим методом. С помощью SRS были получены все записи UniProt, соответствующие белкам Mus musculus, локализованным в аппарате Гольджи. Запрос имеет следующий вид:

((([uniprot-Organism:mus*] & [uniprot-Organism:musculus*]) | [uniprot-Organism:mus musculus*]) & [uniprot-DBxref_:GO:0005794*])

   Полученные 323 записи UniProt были сохранены в текстовый файл. Подсчет общего количества аннотаций, соответствующих записям, и количеств аннотаций, имеющих определенные коды подтверждения, был проведен с помощью команды grep (для подсчета был использован скрипт Linux, результаты выполнения скрипта приведены здесь). Общее количество аннотаций GO белков UniProt протеома Mus musculus, локализованных в аппарате Гольджи, составляет 2164 (на одну запись UniProt белков данной группы приходится в среднем 6-7 аннотаций), общее количество компьютерных аннотаций — 726. Таким образом, доля компьютерных аннотаций составляет 34%, что значительно меньше, чем при проведении поиска по всему протеому Mus musculus первым методом. Это может быть связано с тем, что некоторые термины были присвоены записям UniProt неоднократно с различными кодами доказательств. При оценке количества компьютерных аннотаций первым методом такие термины учитываются несколько раз, а при оценке вторым методом - один раз (с приоритетным кодом доказательства). Так как многие термины, имеющие экспериментальное подтверждение, были также присвоены компьютерными методами (приоритет ниже), то доля компьютерных аннотаций при проведении поиска первым методом (по GOA) оказывается выше.


Табл. 4. Значение кодов подтверждения (evidence code) БД GO.


Код Значение Тип подтверждения
IC (Inferred by Curator) термин присвоен куратором на основе анализа других аннотаций GO, какие-либо подтверждения отсутствуют компьютерное
IDA (Inferred from Direct Assay) термин присвоен на основе непосредственно проведенного эксперимента экспериментальное
IEA (Inferred from Electronic Annotation) термин присвоен автоматически на основе аннтотаций GO сходных последовательностей, присвоение термина не было проверено куратором компьютерное
IEP (Inferred from Expression Pattern) термин присвоен на основе экспериментального измерения уровня экспресии гена экспериментальное
IGC (Inferred from Genomic Context) термин присвоен на основе анализа окружения гена в геноме (например, генов того же оперона) компьютерное
IGI (Inferred from Genetic Interaction) термин присвоен на основе анализа последствий мутаций по нескольким генам экспериментальное
IMP (Inferred from Mutant Phenotype) термин присвоен на основе анализа последствий мутаций по данному гену экспериментальное
IPI (Inferred from Physical Interaction) термин присвоен на основе экспериментов по изучению взаимодействия продуктов гена с другими молекулами экспериментальное
ISS (Inferred from Sequence or Structural Similarity) термин присвоен автоматически на основе аннтотаций GO сходных последовательностей, присвоение термина проверено куратором компьютерное
NAS (Non-traceable Author Statement) термин присвоен на основе результатов непроверенных исследований или записей других БД, не подтвержденных публикациями
(недостоверное)
ND (No biological Data available) термины, обозначающие невыясненные функции (например, molecular function unknown, GO:0005554)
RCA (Inferred from Reviewed Computational Analysis) термин присвоен на основе результатов биоинформатического исследования компьютерное
TAS (Traceable Author Statement) термин присвоен на основе результатов проверенных исследований или общеизвестных сведений экспериментальное
NR (Not Recorded) код подтверждения не присвоен



© Куравский Михаил Львович, 2007