На главную страницу четвертого семестра.

Занятие 5. Функции генов и их продуктов. Онтологии, GO

Задание № 1. Поиск нужного термина в словарях GO.


Gene Ontology (GO) проект - совместная попытка адресовать запрос описания продукта гена в различные базы данных. Сперва проект содержал три базы данных: FlyBase (Drosophila, Saccharomyces Genome Database (SGD) и Mouse Genome Database (MSD). Теперь в GO Consortium входит 15 основных баз данных (список приведен на странице The GO Consortium ).
GO проект структурирован следующим образом: в нем составлены три словаря (онтологии), которые описывают продукт гена в трех терминах:
Также термины GO позволяют оценить достоверность информации, заложенной в эти термины. То есть, в идентификаторе каждой онтологии указан метод, с помощью которого было доказано то или иное свойство, указанное в поле идентификатора. Итак, таких методов в консорциуме GO имеется 14 штук:
В ходе выполнения задания, был произведен поиск наиболее подходящего термина GO, описывающего заданную мне локализацию белка. Из таблицы были взяты следующие данные: локализация белка - аппарат Гольджи, из организма: Homo sapiens.
Вначале поиск проводился по фразе Golgi apparatus, в поле поиска GO term or ID. В результате обнаружено 6 записей. Затем устанавливался фильтр Cellular Component, отчего сервер отсеивал обнаруженные термины GO по типу онтологии, в которую данная запись отнесена. Поэтому круг поиска уменьшился до двух записей: Golgi apparatus ; GO:0005794 и Golgi apparatus part ; GO:0044431. Как видно, второй термин не подходит, так как содержит лишь частичное описание аппарата Гольджи. Поэтому для дальнейшего исследования выбирался термин с идентификатором ID: GO:00057984, в котором представлено полное описание этого органоида. Итак, по данным найденного термина, была установлена следующая информация:
Но при вводе ключевого слова "Golgi apparatus", использовалось поле поиска "GO term or ID", тогда как сервер GO позволяет искать и в поле gene or protein name. Поэтому был произведен ещё раз поиск описания локализации интересующего белка. Второй вариант поиска проводился по фразе Golgi apparatus, но теперь в ином поле поиска gene or protein name. В результате было обнаружено 4-е молекулярных систем, ассоциированных с аппаратом Гольджи (гены и белки). Затем устанавливался фильтр генетических продуктов по виду организма-хозяина (в интересующем случае: Homo sapiens) и типу онтологии (тип словаря, в котором должен вестись поиск - Cellular Component). Отчего обнаружена только одна запись: GSLG1_HUMAN, GLG1, CFR1, ESL1, MG160: Golgi apparatus protein 1 precursor. Выбирая среди опций Get annotation summary и на открываемой странице производя фильтр по типу онтологии клеточный компонент, то в результате получен был термин Golgi membrane. В этом случае, информация о термине иная:
Таким образом, область определения значительно снизилась.Фактически, получен совершенно неверный результат. Действительно, если сперва использовать область поиска в "ID и GO term"'ах, то определяется полностью весь аппарат Гольджи, и описание термина обнаруживается для целого аппарата Гольджи, а если искать через область поиска "gene or protein name", то область поиска значительно снижается и возможно получить неверный результат (ведь необходимо было найти описание всей органеллы, а не её липидной мембраны). Видимо, это связано с тем, что, ведя поиск через имя белка или его ID, авторы, описавшие данный белок, указывают в имени белка название компартмента, где он был обнаружен, очень не точно, без "привязки" к терминам проекта GO. Вывод: если необходимо получить данные о компартменте локализации белка, необходимо указывать термины (или синонимы этих терминов) в поле поиска GO term or ID. Если известно достоверное имя белка, используемое в проекте GO, то для определения клеточного компартмента или органеллы, где локализуется этот белок, стоит проводить поиск в поле gene or protein name. И конечно в обоих случаях проводить фильтр полученных результатов поиска по типу интересующей онтологии (если необходимо найти место работы генетического продукта (ответить на вопрос Где?, то выбираем фильтр cellular component; если интересует биологический процесс, в котором задействован продукт гена: выбираем Biological Process; если интересует молекулярный механизм реакции - ставим опцию Molecular Function).

Описание функции белка N-ацетил глутаминазы (P0A6C8) с помощью GOA.



На странице базы данных GOA производился поиск всех терминов, ассоциированных с данной (Р0А6С8) записью UniProt'a. Для этого в поле ввода кода доступа вводился АС белка ARGB_ECOLI (AC: P0A6C8) и выбраны параметры поиска "Search GO term names" (поиск терминов GO) и "All ontologies" (поиск по всем трем словарям). В результате чего была получена страница со всеми известными терминами в трех онтологиях GO: process, function, component. Итак, все данные приведены в таблице ниже:
  Онтология GO (имя) Количество ассоциированных терминов GO Краткий ответ на вопрос
Где? component (клеточный компонент) 1: GO:0005737 белок работает в цитоплазме
Зачем, для чего? process (биологический процесс) 2 (6) : GO:0006526, GO:0008652 arginine (aminoacid) biosynthetic process. Биосинтез аргинина (в некоторых ссылках записано "аминокислот")
Молекулярный механизм? function (функция) 5 (9): GO:0000166, GO:0003991, GO:0005524, GO:0016301, GO:0016740 функций пять: nucleotide binding (связывание нуклеотидов), acetylglutamate kinase activity (ацетилглутамат киназная активность), ATP binding (АТФ-связывающая активность), kinase activity (киназная активность), transferase activity (трансферазная активность)
Специфичность?   -     -   специфичность - избирательная способность белка связываться с молекулами определенного типа. Поэтому специфичность может быть определена для онтологии молекулярных функций. Поэтому, по данным GO consortium'a, белок специфичен в следующих функциях: связывание нуклеотидов - взаимодействует специфично с нуклеотидами, веществами, состоящими из нуклеозида, этерифицированного олигофосфатом по 5'(-OH) группе; АТФ-связывающая активность - взаимодействует специфично с АТФ, АДФ.


Итак, было найдено 16 терминов GO, относящихся к рассматриваемому белку (некоторые термины выдачи повторены несколько раз, так как данные были получены из нескольких источников. Основными из них являются InterPro, UniProt, HAMAP).
Все данные, полученные при поиске терминов GO для белка P0A6C8, указаны по результатам электронной аннотации (IEA), то есть этим данным особо доверять не стоит. Но так как все термины обнаружены в разных базах данных и в целом идентичны друг другу, то можно вполне поверить этим результатам.

Создание больших выборок белков с определенными функциями (поиск по идентификаторам GO в БД UniProt с помощью SRS) .


Сделав пробный анализ записей с помощью белков P15650,P70618 и P51650, была выяснена форма записи терминов GO в базе данных UniProt. Так для белка P70618 типичная форма результата выглядит так (приведен только фрагмент):

форма записей терминов GO в UniProt'e.

GO:0044445
C:cytosolic part
IDA:RGD.
GO:0005634
C:nucleus
ISS:UniProtKB.
GO:0004708
F:MAP kinase kinase activity
GO:0008339
F:MP kinase activity
GO:0008022
F:protein C-terminus binding
GO:0019735
P:antimicrobial humoral response (sensu Verte...
GO:0006928
P:cell motility


Как видно из выдачи, наличие термина записывается так: GO:NNNNNNN, то есть повторяемым звеном является код GO:, после которого указан номер термина; идентификаторы онтологий GO указаны в однобуквенной форме, после которых также стоит ":" "F:","P:" и "C:"; свойство, указываемое после идентификатора, полностью совпадает с принятым способом обозначения в консорциуме GO, то есть в виде характерных названий. Поэтому, если необходимо опознать количество белков, относящихся к аппарату Гольджи, то можно использовать поиск по ключевому слову: Golgi, причем в этом случае будут найдены все белки, каким-либо образом связанные с функционированием аппарата Гольджи, то есть не только те, что находятся в самом компартменте аппарата, но и в транспортных везикулах Гольджи, в цис- и транс- зонах аппарата и др.
Протеом Homo sapiens. Результаты поиска в UniProt, 18.03.2007г.

  Количество записей Запрос
Всего 68950
(([uniprot-Organism:Homo*] & [uniprot-Organism:sapiens*]) | [uniprot-Organism:Homo sapiens*])
 
С идентификаторами GO 39207
([uniprot-DBxref_:GO:*] & (([uniprot-Organism:Homo*] & [uniprot-Organism:sapiens*]) | [uniprot-Organism:Homo sapiens*]))
 
С хотя бы одним идентификатором из 3-х онтологий GO. В UniProt онтологии обозначаются однобуквенно: биологический процесс — P (Process), молекулярная функция — F (Function), клеточный компонент — C (Component). 39207
(((((((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) | ([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:C:*])) | ([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:P:*])) | (([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:C:*])) | (([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:P:*])) | (([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:*])) | ((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:C:*]) & [uniprot-DBxref_:P:*])) & (([uniprot-Organism:Homo*] & [uniprot-Organism:sapiens*]) | [uniprot-Organism:Homo sapiens*]))
 
С идентификаторами всех 3-х онтологий GO. 14602
(((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:C:*]) & [uniprot-DBxref_:P:*]) & (([uniprot-Organism:Homo*] & [uniprot-Organism:sapiens*]) | [uniprot-Organism:Homo sapiens*]))
 
В том числе в аппарате Гольджи 271
(((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:C:*Golgi*]) & [uniprot-DBxref_:P:*]) & (([uniprot-Organism:Homo*] & [uniprot-Organism:sapiens*]) | [uniprot-Organism:Homo sapiens*]))
 
В том числе только с самыми хорошими доказательствами функции (коды только IDA или TAS) 42
(((([uniprot-Organism:Homo*] & [uniprot-Organism:sapiens*]) | [uniprot-Organism:Homo sapiens*]) & ((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:C:*Golgi*]) & [uniprot-DBxref_:P:*])) & ((((((((((((([uniprot-DBxref_:IDA:*] | [uniprot-DBxref_:TAS:*]) ! [uniprot-DBxref_:IGC:*]) ! [uniprot-DBxref_:NR:*]) ! [uniprot-DBxref_:IMP:*]) ! [uniprot-DBxref_:IGI:*]) ! [uniprot-DBxref_:IPI:*]) ! [uniprot-DBxref_:RCA:*]) ! [uniprot-DBxref_:ISS:*]) ! [uniprot-DBxref_:IEP:*]) ! [uniprot-DBxref_:NAS:*]) ! [uniprot-DBxref_:IEA:*]) ! [uniprot-DBxref_:IC:*]) ! [uniprot-DBxref_:ND:*]))
 
В том числе те, у которых встречается хотя бы один раз самое хорошее доказательство функции (коды только IDA или TAS) 157
(((([uniprot-Organism:Homo*] & [uniprot-Organism:sapiens*]) | [uniprot-Organism:Homo sapiens*]) & ((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:C:*Golgi*]) & [uniprot-DBxref_:P:*])) & ([uniprot-DBxref_:IDA:*] | [uniprot-DBxref_:TAS:*]))
 


В принципе, такие результаты, полученные после использования сервера SRS для поиска терминов GO, можно было ожидать. Действительно, общее количество идентифицированных белков и других генетических продуктов в геноме Homo sapiens огромно (относительно, конечно) равно 68950. Из них около половины белков (если точно, 57%) имеют идентификаторы GO, что указывает на то, что для этих генетических продуктов установлена (или не установлена, ND) каким-то способом (любым возможным из 14-ти свидетельствующих кодов) локализация, биологическая роль и/или механизм процесса, в котором они задействованы. Такое невысокое значение числа аннотированных генетических продуктов в консорциуме GO скорее всего связано с трудностями в идентификации продуктов определенных генов, их роли и значении в эукариотических клетках, в особенности в клетках человеческого организма. Фактически, основным сдерживающим фактором для развития качества и роста количества аннотаций является техническое несовершенство эксперимента, устанавливающего связь "ген - продукт". Но зато те генетические продукты, которые аннотированы, все имеют хотя бы один идентификатор: "F" (функция), "C" (компонент), "P" (процесс), но так чтобы иметь все три идентификатора, то таких генетических белков оказалось значительно меньше: 14602, (37% от числа аннотированных в GO, 21% от всего размера генома). Вполне возможно, такое сильное уменьшение количества полностью описанных генетических продуктов может быть связано именно с теми проблемами технического характера, которые возникают при работе с генами эукариот. Также может сказаться и быстрота роста количества идентифицированных новых генов в составе H. sapiens и скорость их анннотирования: ясное дело, что поиск, детекция новых генов - вещь не сложная и не требует продолжительного времени, а аннотация генетических продуктов - задача нетривиальная, требует четкого и доказательного подхода к каждому утверждению, вносимому в аннотацию.
Для установления аннотированных генетических продуктов в аппарате Гольджи, в запрос вносилось слово Golgi, так как именно это слово встречается во всех идентификаторах "C:", если конечно изучаемая молекула действительно пребывает в аппарате Гольджи. Всего аннотированных последовательностей в аппарате Гольджи равно 271 (1,86% от аннотированных продуктов в GO со всеми тремя идентификаторами или 0,39% от всего размера генома). Возможно, такие цифры - следствие опять же технических сложностей по выделению, определению белков и др продуктов в составе компартмента внутренних мембран: мембран аппарата Гольджи. Особенно этот факт доказывает следующий подсчет: количество последовательностей, аннотированных с самыми хорошими доказательствами функции (коды IDA или TAS), равно 42!! (всего 0,3% или 0,061% от всего размера генома).

Конечно, можно попробовать провести поиск по ключевому слову "Golgi apparatus", которое относится к термину, точно описывающему компартмент Гольджи. Тогда в UniProt'e стоит использовать уже готовый номер для этого термина: GO:0005794. Таким образом, можно уже не указывать идентификатор "С:", а вместо него использовать этот номер термина для аппарата Гольджи:
Протеом Homo sapiens. Результаты поиска в UniProt, 20.03.2007г.

  Количество записей Запрос
Всего 68950
(([uniprot-Organism:Homo*] & [uniprot-Organism:sapiens*]) | [uniprot-Organism:Homo sapiens*])
 
С идентификаторами GO 39207
([uniprot-DBxref_:GO:*] & (([uniprot-Organism:Homo*] & [uniprot-Organism:sapiens*]) | [uniprot-Organism:Homo sapiens*]))
 
С хотя бы одним идентификатором из 3-х онтологий GO. В UniProt онтологии обозначаются однобуквенно: биологический процесс — P (Process), молекулярная функция — F (Function), клеточный компонент — C (Component). 39207
(((((((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) | ([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:C:*])) | ([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:P:*])) | (([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:C:*])) | (([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:P:*])) | (([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:C:*])) | ((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:C:*]) & [uniprot-DBxref_:P:*])) & (([uniprot-Organism:Homo*] & [uniprot-Organism:sapiens*]) | [uniprot-Organism:Homo sapiens*]))
 
С идентификаторами всех 3-х онтологий GO. 14602
(((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:C:*]) & [uniprot-DBxref_:P:*]) & (([uniprot-Organism:Homo*] & [uniprot-Organism:sapiens*]) | [uniprot-Organism:Homo sapiens*]))
 
В том числе в аппарате Гольджи 109
(((([uniprot-Organism:Homo*] & [uniprot-Organism:sapiens*]) | [uniprot-Organism:Homo sapiens*]) & ((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:GO:0005794*]))
 
В том числе только с самыми хорошими доказательствами функции (коды только IDA или TAS) 23
(((([uniprot-Organism:Homo*] & [uniprot-Organism:sapiens*]) | [uniprot-Organism:Homo sapiens*]) & ((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:P:*]) & [uniprot-DBxref_:GO:0005794*])) & ((((((((((((([uniprot-DBxref_:IDA:*] | [uniprot-DBxref_:TAS:*]) ! [uniprot-DBxref_:IGC:*]) ! [uniprot-DBxref_:NR:*]) ! [uniprot-DBxref_:IMP:*]) ! [uniprot-DBxref_:IGI:*]) ! [uniprot-DBxref_:IPI:*]) ! [uniprot-DBxref_:RCA:*]) ! [uniprot-DBxref_:ISS:*]) ! [uniprot-DBxref_:IEP:*]) ! [uniprot-DBxref_:NAS:*]) ! [uniprot-DBxref_:IEA:*]) ! [uniprot-DBxref_:IC:*]) ! [uniprot-DBxref_:ND:*]))
 
В том числе те, у которых встречается хотя бы один раз самое хорошее доказательство функции (коды только IDA или TAS) 77
(((([uniprot-Organism:Homo*] & [uniprot-Organism:sapiens*]) | [uniprot-Organism:Homo sapiens*]) & ((([uniprot-DBxref_:GO:*] & [uniprot-DBxref_:F:*]) & [uniprot-DBxref_:GO:0005794*]) & [uniprot-DBxref_:P:*])) & ([uniprot-DBxref_:IDA:*] | [uniprot-DBxref_:TAS:*]))
 


Как и следовало ожидать, белков и др. генетических продуктов в базе UniProt'a, относящихся по терминологии GO к "Golgi apparatus" (GO:0005794), оказалось лишь 109 штук (0,16% против 0,39% при поиске по слову "Golgi" при пересчете на полный геном). И так же при поиске терминов с наилучшими способами доказательства, количество находок уменьшилось: 0,033% от всего размера генома против 0,061%, при поиске по слову "Golgi", соотвественно упало количество находок с хотя бы одним хорошим доказательством функции. Таким образом, количество белков и др. генетических продуктов, действительно относящихся к компартменту Гольджи "Golgi apparatus", или же так указано исследователями этих белков и/или классифицировано в консорциуме GO, несколько ниже, если искать все белки, которые каким бы то ни было способом, связаны с этой органеллой (в идентификаторе клеточной локализации "C:" указано слово "Golgi".



©Володя Рудько