Базы данных Reactome, String

Мне досталась довольно большая выборка белков (70 штук), поэтому сначала я хотела работать исключительно с базами данных, похожих на Panther (они строят bar-graph’ы, что довольно удобно в условиях большой выборки), однако в итоге я остановилась на двух других базах данных.

STRING

На вход я подала список ID белков, поиск проводился по таксону Homo sapiens (по-другому програмам отказывалась работать). Выдача – очень страшный (на первый взгляд) граф:

1
Рис. 1 Выдача базы данных String
У него 69 узлов (один белок по непонятным мне причинам выпал из поиска, вероятно, его просто не удалось найти) и 919 сторон. Важно было то, что «PPI enrichment p-value» составлял менее 1.0е-16. Что это значит? Это значит, что мои белки имеют больше (>>>) взаимодействий между собой, чем можно было бы ожидать для случайного набора белков одинакового размера и степени распределения, взятого из генома. Такое обогащение указывает на то, что белки по крайней мере частично биологически связаны как группа.
Тут же я скачала файл, содержащий аннотации всех белков в моём графе. Я написала код, который извлекал все слова из столица «term desription», записывал их через пробел и с маленькой буквы в файл. Далее было составлено облако слов:
1
Рис. 2 Облако слов для исследуемой выборки белков
Результаты согласуются с выдачей программы (и с той информацией, которая приведена из базы GO). Значит, мои белки связаны и преимущественно принимают участие в клеточной регуляции (положительной и отрицательной), возможно, в регуляции каскадов (судя по GO – MAPK pathway, entose-phosphate shunt, Golgi inheritance, cell proliferation, etc.), а также в сигнальных путях. Также наиболее частовстречающимися словами стали «morphology, system abnormal(-ity)», «immune system», «metabolic process», «receptor», «signalling».
Здесь же удалось кластеризовать эти белки методом MCA, основанном на моделировании (стохастического) потока в графах. Выдача тут. Разделение мне пока не очень понятно.
Для проверки гипотезы я рассмотрю еще одну базу данных.

REACTOME

Далее я рассмотрела Reactome.
Тут также не нашёлся один белок: PGAM4. Думаю, его действительно нет в базах данных/неверно записан ID.

1
Рис. 3 Выдача базы данных Reactome: результаты. Указаны основные пути, в которых задействованы исследуемый набор белков.
1
Рис. 4 Выдача базы данных Reacfoam
1
Рис. 5 Другой вид выдачи базы данных Reacfoam

Далее приведены отдельно "области" (к сожалению, оформить их по-другому не удалось), в которых встречаются исследуемые белки.

1
1
1
1
1
1
1
1
1
1

Глобально, облако слов, составленное мной, совпадает с областями, выделяемыми этой программой: также мы видим слова «receptors», «signal transduction», «metabolism», «immune system», «developmental biology».

Кластеризация String теперь кажется более понятной.
Белки были сгруппированы на основе их функциональной активности и участия в определённых биологических процессах:
Первая группа содержит белки, которые больше всего участвуют в передаче сигналов в клетках через различные каскады фосфорилирования и активации киназ. Эти белки играют ключевую роль в таких процессах, как рост клеток, выживание, дифференцировка, развитие и ангиогенез. В эту группу входят различные рецепторы ростовых факторов, рецепторные и не-рецепторные тирозиновые киназы, а также некоторые важные сигнальные молекулы, как Ras и PI3K.
Вторая группа объединяет ферменты, прямо участвующие в метаболических путях, таких как гликолиз, пентозофосфатный путь и цикл трикарбоновых кислот (цитратный цикл). Эти ферменты включают киназы, дегидрогеназы и фосфатазы, которые катализируют ключевые реакции в энергетическом метаболизме и биосинтезе.
Третья группа в основном связана с регуляцией метаболизма на системном уровне и ответами на изменения в окружающей среде, включая гипоксию и питание. Эта группа включает такие белки, как серин/треониновые киназы AKT, которые регулируют усвоение глюкозы и клеточное выживание, а также ключевые регуляторы метаболизма и стресса, такие как mTOR и HIF-1α.