Описание функции белка с помощью аннотации Gene Ontology:
Онтология GO (название словаря) | Количество разных ассоциированных терминов GO | Функция белка (краткое описание, близкое к тексту определения терминов GO) |
|
---|---|---|---|
Где | Cellular Component | 0 | |
Зачем, для чего | Biological Process | 2 | GO:0009152: процесс биосинтеза пуриновых рибонуклеотидов (химические реакции, в результате которых
получается пуриновый рибонуклеотид, состоящий из рибонуклеозида с пуриновым основанием (аденином или гуанином), эстерифицированного фосфатом на 3' или 5'-гидроксиле) GO:0006164: процесс биосинтеза пуриновых нуклеотидов (аналогично GO:0009152, в качестве сахара выступает не только рибоза, но и дезоксирибоза) |
Молекулярный механизм | Molecular Function | 4 | GO:0016740: трансферазная активность (перенос функциональных групп или молекулярных остатков от одного соединения (донора) к другому (акцептору); трансферазы относятся ко 2-ому классу ферментов (EC) ) GO:0003824: каталитическая активность (катализ биохимических реакций при физиологических температурах; ферменты специфически связываются с субстратом для осуществления катализа реакции; ферменты чаще всего - белки, однако существуют РНК с каталитической активностью (рибозимы)) GO:0043815: фосфорибозилглицинамидформилтрансверазная 2 активность (фермент катализирует реакцию: муравьиная кислота + АТФ + 5'-фосфорибозилглицинамид = 5'-фосфорибозил-N-формилглицинамид + АДФ + дифосфат) ![]() GO:0016742: гидроксиметил-, формил- зависимая трансферазная активность |
Специфичность | Molecular Function | 4 | GO:0005524: связывание АТФ (селективное, нековалентное взаимодействие с АТФ) GO:0000287: связывание иона магния (селективное, нековалентное взаимодействие с катионом магния) |
Описание термина GO:
На сайте консорциума Gene Ontology проведем поиск описаний для 3 терминов GO (т.к. не нашлось ни одного термина из словаря Cellular Component, возьмем 2 термина из Molecular Function и 1 - из Biological Process).
GO ID выбранного термина | Список синонимов | Список ближайших родительских терминов GO с указанием типа связи | Список ближайших дочерних терминов GO с указанием типа связи |
---|---|---|---|
GO:0009152 (словарь Biological Process) | exact: purine ribonucleotide anabolism exact: purine ribonucleotide biosynthesis exact: purine ribonucleotide formation exact: purine ribonucleotide synthesis |
GO:0006164 - биосинтез пуриновых нуклеотидов (связь GO:0009152 is a GO:0006164, т.е. GO:0009152 - частный случай GO:0006164), GO:0006164 ассоциирован с нашим белком PURT_ECOLI GO:0009150 - метаболизм пуриновых рибонуклеотидов (связь GO:0009152 is a GO:0009150) GO:0009260 - биосинтез рибонуклеотидов (связь GO:0009152 is a GO:009260) Картинка графа |
GO:0009180 - боисинтез пуриновых рибонуклеозид-дифосфатов GO:0009206 - боисинтез пуриновых рибонуклеозид-трифосфатов GO:0009168 - боисинтез пуриновых рибонуклеозид-монофосфатов дочерние термины можно увидеть на графе |
GO:0043815 (словарь Molecular Function) | exact: 5'-phosphoribosylglycinamide transformylase 2 exact: formate-dependent GAR transformylase activity есть также связанные синонимы (неточные): related: GAR transformylase 2 related: GART 2 |
GO:0016742 - гидроксиметил-, формил- заваисимая трансферазная активность (GO:0043815 is a GO:0016742), GO:0016742 представлен среди терминов GO, ассоциированных с белком PURT_ECOLI Граф |
Дочерних терминов нет, GO:0043815 - младший термин GO, нет таких термнов GO, являющихся частным случаем GO:0043815. |
GO:0000287 (словарь Molecular Function) | exact: magnesium binding | GO:0046872 - связывание иона металла (связь GO:0000287 is a GO:0046872), этот термин также представлен серди ассоциированных с белком PURT_ECOLI Граф |
Дочерних терминов нет, GO:0000287 - младший термин GO, нет таких термнов GO, являющихся частным случаем GO:0000287. |
Определение числа реальных и гипотетических белков из таксона Oryza (рис, rice):
Ранг таксона: род (genus)
Идентификатор таксона (NCBI_ID): 4527
Классификация:
Царство: Растения
Отдел: покрытосеменные
Класс: Однодольные
Порядок: Злакоцветные
Семейство: Злаки
Подсемейство: Ehrhartoideae
Род: Рис
В SRS поле ProteinExistence базы данных UniProt проиндексировано следующим образом:
1: evidence at protein level - существование белка доказано экспериментально (86150 записей, 0,774%)
2: evidence at transcript level - известны только соответствующие транскрипты (526547 записей, 4,729%)
3: inferred from homology - белок предсказан по гомологии (2505249 записей, 22,499%)
4: predicted - иные предсказанные белки (8014981 записей, 71,984%)
5: uncertain - сомнительные белки (1541 записей, 0,014%)
Выясним соотношение между реальными и гипотетическими белками из таксона Oryza (по данным UniProt):
Количество в UniProt | |
---|---|
Существование белка доказано экспериментально | 385 |
Известны только соответствующие транскрипты | 16065 |
Гипотетический белок, предсказан по гомологии | 9596 |
Иные предсказанные гипотетические белки | 120394 |
Из результатов поиска по UniProt видно, что большинство белков риса - предсказанные, а количество реально полученных белков - невелико.
Возможно, если провести поиск по SwissProt, доля выделенных белков и транскриптов будет больше, ведь SwissProt - курируемая база данных (SwissProt - часть UniProt).
Количество в SwissProt | |
---|---|
Существование белка доказано экспериментально | 275 |
Известны только соответствующие транскрипты | 2001 |
Гипотетический белок, предсказан по гомологии | 724 |
Иные предсказанные гипотетические белки | 13 |
И действительно, число предсказанных белков значительно уменьшилось, а большинству записей соответствуют транскрипты.
Определение качества функциональной аннотации в SwissProt:
Коды экспериментального доказательства функции ( Guide to GO Evidence Codes ):
Inferred from Experiment (EXP) - из эксперимента
Inferred from Direct Assay (IDA) - из прямого анализа
Inferred from Physical Interaction (IPI) - из физического взаимодействия
Inferred from Mutant Phenotype (IMP) - из мутантного фенотипа
Inferred from Genetic Interaction (IGI) - из генетического взаимодействия
Inferred from Expression Pattern (IEP) - из модели экспрессии
Определим с помощью одного запроса к SRS, сколько из реальных белков (выделены белки или транскрипты) таксона Oryza аннотированы по всем трем словарям GO, и у которых встречается хотя бы один раз один из кодов экспериментального доказательства функции.
Для этого обратимся к SRS с запросом: (([swissprot-Taxonomy:Oryza*] & ([swissprot-ProteinExistence:1:*] | [swissprot-ProteinExistence:2:*])) & (((([swissprot-DBxref_:GO:*] & [swissprot-DBxref_:P:*]) & [swissprot-DBxref_:F:*]) & [swissprot-DBxref_:C:*]) & ((((([swissprot-DBxref_:EXP:*] | [swissprot-DBxref_:IDA:*]) | [swissprot-DBxref_:IPI:*]) | [swissprot-DBxref_:IMP:*]) | [swissprot-DBxref_:IGI:*]) | [swissprot-DBxref_:IEP:*])))
По запросу найдено 56 белков ( файл с находками). Всего реальных белков Oryza в SwissProt - 2276 (из предыдущего задания), найденные белки составляют 2,5%. Такой результат говорит о низком количественном уровне аннотации в SwissProt, однако я думал, что будет еще меньше.
Обращение с аналогичным запросом к UniProt трудно осуществимо, из-за большего размера БД UniProt по сравнению с SwissProt.
С помощью запроса SRS к SwissProt были получены 56 хорошо аннотированных белков из организмов рода Oryza. Подобная аннотация требует много времени, сил и средств, было бы интересно узнать белки с какими функциями были аннотированы. (К тому же Oryza - рис - значимая сельскохозяйственная культура, все белки имеют идентификаторы *_ORYSJ - соответствуют рису посевному, интересно на какие белки прежде всего было обращено внимание исследователей)
Для этого обработаем полученный список белков с помощью программы GOstat (хотя выборка и не является большой) (см. ниже Использование GO для работы с массовыми данными).
Чаще других представлены термины GO:
GO:0009987 (P-value=5.57e-32, встречается 27 раз) - процессы протекающие на клеточном уровне, но значимые не для отдельно взятых клеток (например клеточное общение)
GO:0007275 (P-value=4.68e-20, встречается 10 раз) - биологические процессы, связанные с ростом многоклеточного организма
GO:0044237 (P-value=6.45e-20, встречается 19 раз) - клеточные метаболические процессы
GO:0043170 (P-value=1.92e-18, встречается 17 раз) - метаболизм макромолекул
GO:0050896 (P-value=1.92e-18, встречается 12 раз) - изменение клеточной активности в ответ на стимул
GO:0009791 (P-value=3.32e-12, встречается 6 раз) - постэмбриональное развитие
Таким образом среди терминов GO аннотированных белков часто встречаются термины посвященные росту и развитию организма, реакции клеток на внешние стимулы, что значимо для изучения риса как сельскохозяйственной культуры.
Получение выборки последовательностей белков с заданной функцией:
Проведем поиск всех белков, выполняющих функции карбоксилирования, из организмов, принадлежащих к роду Oryza. Для этого найдем на сайте консорциума Gene Ontology идентификатор GO, соответствующий этой функции. Карбоксилирование (carboxylation) - введение в молекулу карбоксильной группы -COOH. По запросу carboxylation на сайте Gene Ontology найдено 10 идентификаторов GO, среди которых 4 относятся к декарбоксилированию, а остальные посвящены карбоксилированию аминокислот белков, наиболее общим среди них является GO:0018214 .
На мой взгляд, такой результат поиска очень странный, ведь карбоксилирование происходит не только при посттрансляционных модификациях белка, но у растений главным образом в цикле Кальвина, когда фермент рибулозобисфосфаткарбоксилаза присоединяет углекислый газ к рибулозо-1,5-бифосфату.
Идентификатор GO:0018214 относится к словарю biological process.
По запросу к SRS, где в поле Taxonomy - Oryza, а в поле DBxref_ - GO:0018214 ничего не нашлось ни в базе данных UniProt, ни даже в TrEMBL.
В то время, как для идентификатора GO:0016984, означающего рибулозобисфосфаткарбоксилазную активность, найдено 49 записей (по таксону Oryza в базе данных UniProt).
Запрос: ([uniprot-Taxonomy:Oryza*] & [uniprot-DBxref_:GO:0016984*]). Файл с последовательностями находок в fasta-формате.
Определение главной функции в большом списке белков:
В файле - список белков (174 белка), полученный в результате массового эксперимента (в т.ч. и белок PURT_ECOLI). Определим белки с какими функциями доминируют в этом списке, используя программу GOstat .
В выборке чаще других представлены термины GO:
GO:0005515 (P-Value=1.74e-50, встречается 48 раз) - селективное нековалентное взаимодействие (связывание) с белками и белковыми комплексами (словарь - molecular function)
GO:0005886 (P-Value=8.65e-49, встречается 55 раз) - мембрана, отделяющая клетку от внешней среды (словарь - cellular component)
GO:0044464 (P-value=1.26e-08, встречается 111 раз) - любой элемент клетки, базовая структурная и функциональная единица организма (словарь - cellular component)
GO:0006164 (P-value=3.48e-15, встречается 22 раза) - процесс биосинтеза пуриновых нуклеотидов (словарь - biological process). Этот термин ассоциирован с белком PURT_ECOLI (P33221).
GO:0006163 (P-value=4.69e-15, встречается 22 раза) - пуриновый метаболизм (словарь - biological process)
GO:0009152 (P-value=2.55e-14, встречается 20 раз) - биосинтез пуриновых рибонуклеотидов (словарь - biological process). Этот термин ассоциирован с белком PURT_ECOLI (P33221).
GO:0022857 (P-value=4.95e-06, встречается 29 раз) - участвует в транспорте веществ с одной стороны мембраны на другую (словарь - molecular function)
GO:0009259 (P-value=7.89e-14, встречается 20 раз) - метаболизм рибонуклеотидов (словарь - biological process)
В выборке доминируют белки, вовлеченные в метаболизм пуриновых рибонуклеотидов, что согласуется с функцией белка PURT_ECOLI. Возможно, также есть белки, обеспечивающие транспорт необходимых веществ через клеточную мембрану.
В выдаче GOstat первые 2 находки (GO:0005515 и GO:0005886) имеют очень низкие значения P-value (1.74e-50 и 8.65e-49 соответственно) (вероятность того, что они попали в выдачу случайным образом мала), далее P-value довольно резко увеличивается (для GO:0006164 P-value=3.48e-15), но все же еще остается достаточно низким, чтобы считать полученные термины GO достоверными.