| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  |   |
Занятие 7.I. Знакомство с терминологией GO1. Описание функции белка с помощью аннотации Gene Ontology
2. Описание термина GOБыло выбрано по одному термину из каждого словаря GO. Затем был проведен поиск описаний выбранных терминов на главном сайте консорциума Gene Ontology. Для каждого термина было определено, есть ли точные синонимы, какие термины являются родительскими, а какие - дочерними, а также типы связей между ними. Результаты представлены в таблице ниже.
Файлы с изображениями графов родительских, дочерних терминов и терминов-сибсов: 0006526.png 0016743.png 0009348_1.png (без терминов-сибсов) и 0009348_2.png (этот граф содержит сибсы только для одного из родителей рассматриваемого термина - цитоплазматической части, поскольку всего сибсов слишком много). II. Оценка качества функциональной аннотации белков в UniProt1. Определение числа реальных и гипотетических белков рисаКраткое описание таксона:русское название: Рис; английское название: Rice; латинское название: Oryza; ранг таксона: род; NCBI_TaxID: 4527. Далее рассмотрим поле ProteinExistence в БД UniProt в SRS. Это поле было в последний раз проиндексировано 23 марта 2010 г. и может принимать следующие значения: 1: Evidence at protein level (существование белка доказано экспериментально) 2: Evidence at transcript level (известен только соответствующий транскрипт) 3: Inferred from homology (предсказан по гомологии) 4: Predicted (гипотетический) 5: Uncertain (существование белка под сомнением).
Как и ожидалось, экспериментально подтверждено очень малое количество белков (меньше процента!). Существование транскриптов доказано для довольно многих. Среди огромного количества предсказанных белков по гомологии предсказана лишь небольшая часть. При рассмотрении соответствия с UniRef100 выяснилось, что для белков, чье существование доказано экспериментально, число записей в UniRef100 больше числа записей в UniProt. Это произошло потому, что в UniRef100 для одного белка может находиться сразу несколько записей, которые ссылаются на старые AC UniProt. Теперь рассмотрим соотношение между реальными и гипотетическими белками риса при поиске по Swiss-Prot:
Поскольку Swiss-Prot - курируемая БД, большая часть гипотетических и предсказанных белков отсеивается. Тем не менее, предсказанных по гомологии белков остается достаточно много по отношению к общему количеству белков, а число белков, для которых известны транскрипты, все же значительно превышает число экспериментально подтвержденных белков. 2. Определение качества функциональной аннотации в UniProtC помощью одного запроса к SRS определим, сколько из реальных белков Oryza sp. аннотированы по всем трем словарям GO и у которых встречается хотя бы один раз хотя бы один из кодов экспериментального доказательства функции.Коды экспериментального доказательства функции GO выглядят так: Inferred from Experiment (EXP) - получено из эксперимента, Inferred from Direct Assay (IDA) - из прямого анализа, Inferred from Physical Interaction (IPI) - из физического взаимодействия, Inferred from Mutant Phenotype (IMP) - из фенотипа мутанта, Inferred from Genetic Interaction (IGI) - из генетического взаимодействия, Inferred from Expression Pattern (IEP) - из модели экспрессии. Запрос был составлен следующим образом:
С таким запросом SRS не справился. Если искать белки, аннотированные по трем словарям без учета кодов экспериментального доказательства, SRS снова зависает и запрос не может быть обработан. Когда ограничение по словарям было снято, нашлось 53 белка. Среди них были и проаннотированные по всем трем словарям GO - 30 белков. Таким образом, чуть больше половины белков, чье существование было доказано экспериментально, на данный момент изучены полностью (т.е. проаннотированы по всем трем словарям GO). III. Использование GO для работы с массовыми данными1. Получение выборки последовательностей белков с заданной функциейНеобходимо найти все белки риса, участвующие в биосинтезе пуринов. Для этого определим наиболее подходящий термин GO, выполнив поиск на сайте консорциума GO. По запросу "purine biosynthesis" было найдено несколько терминов, таких как "биосинтез пуриновых оснований", "биосинтез пуриновых нуклеотидов", "биосинтез пуриновых нуклеозидов" и т.д. Все они принадлежат к словарю Biological Process. Был выбран термин GO:0009113 - биосинтез пуриновых оснований (purine base biosynthesis).Для поиска по SRS был составлен следующий запрос:
Было найдено 14 белков. Их последовательности сохранены в fasta-формате в файле purine.fasta 2. Определение главной функции в большом списке белковИмеется список белков, полученный в результате массового эксперимента. Задача - определить, белки с какими функциями доминируют в этом списке. Для этого используем программу GOstat. При подсчете рассматривалась БД goa_uniprot, максимальное значение P-value 0,01.Для определения скачка P-value был построен график его десятичного логарифма: ![]() Доверять можно терминам, расположенным до скачка. Все они относятся к словарю Biological Process. Рассмотрим эти термины подробнее. GO:0006526 - биосинтез аргинина (arginine biosynthetic process), GO:0006525 - метаболизм аргинина (arginine metabolic process), GO:0009084 - биосинтез аминокислот из семейства глутамина (glutamine family amino acid biosynthetic process). Аргинин относится к этому семейству. Термин GO:0000051, охарактеризованный в GOstat как метаболизм интермедиата в цикле образования мочевины (urea cycle intermediate metabolic process) в настоящее время отсутствует в GO. Тем не менее, при поиске среди терминов GO по запросу "urea cycle intermediate" обнаружился GO:0070408 - метаболизм карбамоилфосфата (carbamoyl phosphate metabolic process), являющегося как раз интермедиатом в орнитиновом цикле (цикле образования мочевины). Исследуемый мной белок OTC1_ECOLI участвует в метаболизме карбамоилфосфата, а именно катализирует реакцию образования L-цитруллина и фосфата из карбамоилфосфата и L-орнитина. Эта реакция представляет собой один из этапов биосинтеза аргинина, который, в свою очередь, является одним из доминирующих терминов в данной выборке. Однако термин "carbamoyl phosphate metabolic process" ни с OTC1_ECOLI, ни с остальными белками из рассматриваемой выборки, не ассоциирован. Кроме того, он вообще никак не связан с термином "arginine biosynthetic process" в GO. По результатам подсчета GOstat можно сказать, что в изучаемой выборке доминируют белки, участвующие в биосинтезе аргинина и других аминокислот глутаминового семейства, а также связанные с метаболизмом аргинина. С заданным белком OTC1_ECOLI, по данным GOstat, ассоциированы все термины из числа самых перепредставленных. Если же рассматривать данные из QuickGO EBI, этому белку приписан только термин GO:0006526 - биосинтез аргинина. Впрочем, этот термин является дочерним для двух оставшихся с типом связи is a, то есть является их частью: ![]() Таким образом, большая часть белков из выборки и заданный белок участвуют в схожих биологических процессах. Назад |