Мне достался набор из 19 генов и, прежде чем исследовать его в одной из баз данных, я решил кратко посмотреть, что это за гены. Выяснилось, что эти гены регулируют множество процессов, в первую очередь связанных с гликозилированием, то есть добавлением сахарных остатков к белкам и липидам.
Проведём теперь анализ обогащения в базе GO – Gene Ontology. Это биоинформатический проект, представляющий собой унифицированную терминологию для аннотации генов и генных продуктов. База данных GO включает три независимых словаря: Молекулярные функции, Биологические процессы и Клеточные компоненты. Каждый термин в GO имеет ряд атрибутов: уникальный цифровой идентификатор, название, словарь, к которому термин принадлежит, и определение.
Возможности GO:
GO аннотирует гены и генные продукты терминами, которые описывают их роль, функции и расположение в клетках. Можно проводить статистический анализ и сравнивать биологические роли генов в разных организмах. GO также позволяет пользователям проводить анализ обогащения, чтобы определить, какие биологические процессы и молекулярные функции превалируют в наборе генов.
Загрузим список из ID наших генов и проведём поиск в Panther по биологической функции. Будем использовать тест Фишера с поправкой Бонферрони (это метод умножает P-значение для одного теста на количество независимых тестов, чтобы определить уровень ожидаемых ошибок.) По умолчанию включено отображение только значимых результатов.
Что мы видим? Данные гены регулируют процессы биосинтеза глобозида (гликосфинголипида), ганглиозидов с использованием лактозилцерамида, олигосахаридов и O-гликозилирования.
Проведём теперь поиск наших генов в бд STRING. Она дает представление о межбелковых взаимодействиях, помогая понять взаимосвязи между белками. Можно визуально оцениь сеть межбелковых взаимодействий, выделяя известные взаимодействия и предполагаемые взаимодействия, основанные на различных источниках (экспериментальных, вычислительных и тд).
Как мы видим, наши белки тесно взаимосвязаны – многие связи обозначены в курируемых источниках, связь между B4GALT5 и B4GALT6 доказана экспериментально, достоверность данных весьма высока. PPI enrichment p-value составляет порядка 1.0e-16, что свидетельствует о наличии обогащения – столько взаимосвязей между белками явно не может быть случайностью. Плюс, если мы посмотрим на список из данных GO по биологической функции, то мы увидим, что все наши белки участвуют в метаболизме и биосинтезе гликолипидов, гликосфинголипидов или керамидов (простых сфингофосфолипидов).
Наконец заглянем в Reactome. Эта база даёт возможность изучить пути, специфичные для клеток и тканей. Она содержит подробное представление клеточных процессов в виде упорядоченной сети молекулярных реакций. Как мы видим, данные представлены достаточно удобно (в виде сетки, похожей на соты). Можно наглядно оценить, в каких процессах принимают участие наши белки.
Вывод: обогащение есть, наши гены в основном регулируют процессы, связанные с метаболизмом и биосинтезом липидов. Больше всего мне понравилась выдача Reactome из-за большой наглядности.