![]() |
||||
|
Терминология GOПо ссылке "Complete GO annotation..." на странице UniProt с описанием белка 6PGD_ECOLI была открыта страница браузера QuickGO EBI. По информации, предоставленной на ней, была заполнена таблица:
Описание термина GOСреди терминов, указанных в аннотации белка 6PGD_ECOLI, были выбраны 2, по одному из каждого словаря.
Граф родительских, дочерних терминов и терминов-сибсов для GO:0006098: посмотреть Качество функциональной аннотации белков в UniProtОценка проводилась на основе данных по белкам коровы.Краткое описание таксона: Русское название: Корова Английское название: Cattle Латинское название: Bos taurus Ранг: Вид NCBI_TaxID: 9913Перед поиском белков было изучено поле ProteinExistence БД UniProt. Ему соответствуют 5 значений: 1: evidence at protein level свидетельство на белковом уровне 2: evidence at transcript level свидетельство на уровне транскрипта 3: inferred from homology вывод сделан на осовании гомологии 4: predicted предсказание 5: uncertain неясно
Как видно из диаграммы, большую часть белков представляют собой записи с известными транскриптами, в то время как реально существующие белки по количеству примерно совпадают с сомнительными предсказаниями. Также был проведена оценка по SwissProt.
Качество функциональной аннотации в SwissProtВ SRS был создан запрос по реальным белкам из таксона Bos taurus (ID в NCBI 9913), аннотированным по всем трем словарям GO, у которых встречается хотя бы один раз хотя бы один из кодов экспериментального доказательства функции. (поиск был проведен по swissprot)Текст запроса: (([swissprot-NCBI_TaxId:9913*] & [swissprot-ProteinExistence:1:*]) & (((([swissprot-DBxref_:GO:*] & [swissprot-DBxref_:P:*]) & [swissprot-DBxref_:F:*]) & [swissprot-DBxref_:C:*]) & ((((([swissprot-DBxref_:EXP:*] | [swissprot-DBxref_:IDA:*]) | [swissprot-DBxref_:IPI:*]) | [swissprot-DBxref_:IMP:*]) | [swissprot-DBxref_:IGI:*]) | [swissprot-DBxref_:IEP:*]))) В результате в SwissProt было найдено 99 записей, что, по сравнению с 1057 записями по запросу из предыдущего задания, является маленьким значением. В данном запросе учитывался критерий как "реальности в SwissProt", так и в GO. Если из запроса исключить одно из условий (1: evidence at protein level или EXP|IDA|IPI|IMP|IGI|IEP), то результаты следующие: (([swissprot-NCBI_TaxId:9913*] & [swissprot-ProteinExistence:1:*]) & ((([swissprot-DBxref_:GO:*] & [swissprot-DBxref_:P:*]) & [swissprot-DBxref_:F:*]) & [swissprot-DBxref_:C:*])) 618 результатов ([swissprot-NCBI_TaxId:9913*] & (((([swissprot-DBxref_:GO:*] & [swissprot-DBxref_:P:*]) & [swissprot-DBxref_:F:*]) & [swissprot-DBxref_:C:*]) & ((((([swissprot-DBxref_:EXP:*] | [swissprot-DBxref_:IDA:*]) | [swissprot-DBxref_:IPI:*]) | [swissprot-DBxref_:IMP:*]) | [swissprot-DBxref_:IGI:*]) | [swissprot-DBxref_:IEP:*]))) 123 результата Таким образом, половина из реальных белков коровы имеет аннотацию по всем словарям GO. Число белков коровы, имеющих код экспериментального доказательства функции согласно данным GO, мало и близко по значению к результату первого запроса. Можно предположить, что наличие экспериментального доказательства функции в GO часто подразумевает подробную аннотацию по всем 3 словарям. Процент реальных белков с описанием функции в SwissProt очень мал, что подтверждает медленную скорость экспериментального подтверждения существования белков. GO в работе с массовыми даннымиВыборка последовательностей белков с заданной функциейЗаданная функция: Биосинтез пуринов Функция по-английски: Purine biosynthesisПо базе GO был произведен поиск терминов по запросу purine biosynthesis. Было найдено 20 результатов, среди которых для дальнейшего поиска был выбран термин GO:0009113, биосинтез пуриновых оснований, словарь Biological Process. В SRS был создан запрос по белкам из таксона Bos taurus с GO:0009113. Текст запроса: (([goa-GOID:0009113*] & [goa-taxon:9913*]) > UNIPROT ) Всего находок: 7 Результат в fasta формате сохранен здесь Определение главной функции в большом списке белковC помощью программы GOstat было определено, белки с какими функциями доминируют в списке P00350.Лучшие находки (низкий P-value): GOID NAME ONTOLOGY P-VALUE GO:0005886 plasma membrane cellular component 4.15e-28 плазматическая мембрана GO:0019520 aldonic acid metabolic process biological process 8.94e-22 метаболизм альдоновой кислоты GO:0019521 D-gluconate metabolic process biological process 8.94e-22 метаболизм D-глюконатаВ последующих находках P-value возрастает примерно на 8 порядков, что может свидетельствовать о пороговом значении вероятности того, что частота термина GO близка к его частоте в случайной выборке терминов. По 3 находкам сложно судить по общей функции выборки, тогда обратимся к тем, что имеют более высокое P-value: GO:0005975 carbohydrate metabolic process biological process 5.38e-14 метаболизм углеводов GO:0044262 cellular carbohydrate metabolic process biological process 8.33e-13 метаболизм клеточных углеводов GO:0006740 NADPH regeneration biological process 2.79e-12 регенерация NADPH GO:0006098 pentose-phosphate shunt biological process 2.79e-12 пентозофосфатный путь GO:0006739 NADP metabolic process biological process 3.58e-12 метаболизм NADP GO:0005515 protein binding molecular function 1.51e-11 связывание с белком GO:0006733 oxidoreduction coenzyme metabolic biological process 2.2e-10 process метаболизм RedOx коэнзимаКо всем этим терминам относится белок 6PGD_ECOLI (кроме первого, однако первая находка из словаря С, а для 6PGD_ECOLI термины из этого словаря не описаны вообще). Все эти термины (из словаря P) объединены общей функцией: обмен углеводов (альдоновая кислота, глюконаты, NADPH, который участвует в RedOx реакциях углеводов). |