Базы данных GO и Reactome
Выданный мне список состоит из 37 белков. Так как я о них пока ничего не знаю, сразу сформулировать задачу трудно; я воспользуюсь базой данных GO с онтологией "biological process", чтобы получить представление о закономерности, по которой этот список мог быть составлен, и затем воспользуюсь соответсвующей базой данных, чтобы узнать подробности или сделать визуализацию.
Во-первых, сразу стало очевидно, что эти белки участвуют в метаболизме аминокислот.
Но по списку из 37 названий нашлось 45 белков. Так как сайт вывел список UniProt AC для тех случаев, когда несколько белков соответствует одному названию, я отсмотрел их все в UniProt. Там всегда было очевидно, какой белок имелся в виду на самом деле: название гена этого белка точно соответствовало тому, которое дано в списке, и это был фермент, катализирующий какую-нибудь реакцию с аминокислотами, а другой находокой было что-нибудь совсем несвязанное, вроде ДНКазы или какого-нибудь рецептора, где в синонимах было такое же название. Я почистил список, убрав из него такие неоднозначные названия и вставив вместо них UniProt AC. Вот исправленный вариант.
Потом я повторил поиск по исправленному списку, вот выдача. Самой узким термином, который относился ко всем 37 белкам, был "organonitrogen compound metabolic process". При этом "proteinogenic amino acid metabolic process" относился к 34 белкам (это самое значимое обогащение, p-value = 10−70). Терминам "glutamine metabolic process", "glutamate metabolic process" и "aspartate metabolic process" соответствовало 13, 12 и 8 белков (это все очень значимо, p-value < 10−22).
Теперь можно посмотреть, где идут эти метаболические процессы. Я повторил поиск по GO c "cellular component" — получилось 24 цитозольныз и 15 митохондриальных, с каким-то пересечением, очевидно.
Дальше хочется посмотреть на конкретные метаболические пути, в которых участвуют эти белки. Возможно, с помощью KEGG это можно было бы сделать красивее, но по соотношению усилие/результат явно выигрывает Reactome, поэтому воспользуюсь им.
Вот несколько примеров нашедшихся обогащенных белками из списка путей (рис. 1–3)
Кажется, можно уверенно сделать такой вывод: какой бы процесс не сгенерировал этот список, будь это определение дифференциальной экспрессии или поиск по ключевым словам в UniProt, он был связан с метаболизмом протеиногенных дикаркабоксильных аминокислот.