Практикум 6. Базы данных KEGG, GO и другие

Для выполнения данного практикума мне достался набор 57 генов, что не мало для анализа. Ну от того работа будет веселее (надо мыслить позитивно). Что ж, да начнётся приключение по БД.

Метод пристального взгляда и догадок

В моём наборе очень много генов со схожими видами записи. Например: (Дисклеймер: маленькие латинские буквы n,k,l,m - переменные для цифр и букв, основной упор делаем на заглавные буквы)

HSnSTklm (это heparan sulfate-glucosamine n-sulfotransferase klm [ Homo sapiens (human) ]). Эти гены кодируют ферменты, участвующие в биосинтезе гепарансульфата и являющиеся ключевыми компонентами в создании множества различных тонких структур гепарансульфата, которые выполняют множество биологических функций.
GPCn (это glypican n [ Homo sapiens (human) ]). Протеогликаны гепарансульфата на поверхности клеток состоят из связанного с мембраной белкового ядра, замещенного различным числом цепей гепарансульфата. Представители семейства интегральных мембранных протеогликанов, связанных с глипиканом (GRIPS), содержат основной белок, прикрепленный к цитоплазматической мембране посредством гликозилфосфатидилинозитольной связи. Эти белки могут играть важную роль в контроле клеточного деления и регуляции роста.
NDSTn (это N-deacetylase and N-sulfotransferase n [ Homo sapiens (human) ]). Этот ген кодирует представителя семейства N-деацетилаз/N-сульфотрансфераз гепарансульфата/гепарина GlcNAc. Кодируемый фермент представляет собой трансмембранный белок II типа, находящийся в аппарате Гольджи. Кодируемый белок катализирует перенос сульфата из 3'-фосфоаденозин-5'-фосфосульфата в азот глюкозамина в гепарансульфате.

В общем, много где фигурирует слово гепарансульфат, а это явно не спроста. Так что теперь начинаем ползать по базам и делать более значимые выводы.

GO + PANTHER

Для начала необходимо понять, что может объединять данные гены функционально. Для этого воспользуемся базой данных GO. База данных GO представляет собой граф биологических терминов, соединенных различными отношениями. В GO существуют аннотации – утверждения, связывающие конкретный генный продукт с конкретным онтологическим термином, основанные на фактических данных. Помимо этого в GO существуют 3 группы терминов:

Молекулярные функции (Molecular Function, MF) - специфическая функция генного продукта на молекулярном уровне, например каталитическая и транспортная активности.
Биологические процессы (Biological Process, BP) - комплексные явления, необходимые для жизнедеятельности организмов и происходящие благодаря последовательности молекулярных функций, например репарация ДНК, биосинтез цитозина.
Клеточные компоненты (Cellular Component, CC) - часть клетки или внеклеточного пространства, где продукт гена осуществляет свою функцию, например, митохондрия или плазматическая мембрана.

Переходим на сайт базы данных и в специальное окно GO Enrichment Analysis вставляем список ID генов, после чего нажимаем Launch, после этого нас перекидывает на сайт PANTHER (и снова время мема).

**Рисунок 3.** Как мне представляется эмблема сайта PANTHER

Ниже представлены ссылки на таблицы для разных функций:

Скрины вставлять не хочу, лучше просто словами объясню выводы:

Были использованы все 57 ID (никто по дороге не потерялся)
В каждой подаче было найдено 20580 терминов
В каждой из 3 таблиц все находки имели p-value < 0.05
Если делать некий обобщающий вывод, то продуктами данных генов являются ферменты, учавствующие либо в синтезе, либо в распаде протеогликанов, содержащих гепарансульфат.

KEGG

Прежде, чем написать что-то умное, надо разбавить это ещё одним мемом (извините, но название БД само просит):

Теперь возвращаемся к серьёзным вещам.

Используем базу данных KEGG (Kyoto Encyclopedia of Genes and Genomes) — интегрированный ресурс, объединяющий 16 баз данных, структурированных в 4 категории:

Системная информация: метаболические и регуляторные пути, модули генов, классификация биологических процессов.
Геномная информация: данные о генах, геномах организмов, ортологичных группах.
Химическая информация: метаболиты, гликаны, ферменты, биохимические реакции.
Медицинские данные: заболевания, лекарства, молекулярные мишени.

KEGG предоставляет много удобных инструментов для работы со своими базами данных. Мне потребуется KEGG PATHWAY из категории системная информация, конкретно нас будет интересовать метаболический путь Glycosaminoglycan biosynthesis - heparan sulfate / heparin:

**Рисунок 5.** Изображение из KEGG PATHWAY

Честно говоря, я вот эти линии и черты (спасибо, что не чёрты) не совсем понимаю, но они точно имеют смысл (иначе бы умные японцы не стали бы их сюда загружать). Поэтому я хочу продолжить исследования и попробую использовать еще одну БД.

REACTOME

Решила попробовать REACTOME, потому что легендарные графы STRING я бы расшифровывала только при помощи карт таро.

В общем, для работы с REACTOME мне понадобились они:

**Рисунок 6.** Гадание на интерфейс онлайн бесплатно

После того, как я разобралась с интерфейсом, были получены следующие результаты (поскольку делать изображения в формате png для REACTOME сделалось труднозатратно, в этом формате только общее изображение, а всё остальное - принтскрины, надеюсь, что на сайте это не сильно шакально будет смотреться):

**Рисунок 7.** Общее изображение с Reacfoam

**Рисунок 8.** Метаболизм (в основном, метаболизм углеводов и их производных, а также метаболизм витаминов и кофакторов) + Заболевания (в основном, заболевания метаболизма и инфекционные заболевания) + Сенсорное восприятие (зрительная фототрансдукция)

**Рисунок 9.** Организация внеклеточного матрикса

**Рисунок 10.** Клеточные поверхностные взаимодействия в стенке сосуда

**Рисунок 11.** Регуляция транспорта ИПФР и поглощение СБИПФР

ВЫВОДЫ

Для начала (конца), пару слов про бд: GO + PANTHER самая информативная, жаль, что кроме пантеры больше картинок нет. Reactome удобно пользоваться, только тогда, когда поймал связь с космосом, хотя ответ дал проще всех (ну и вайбы Миэль Попс Жу-Жу-Жу) KEGG реально для японцев (слишком умно), ну либо для криптографов (мб поймут, что хотел сказать автор).

В итоге, я еще на этапе пристального взгляда примерно поняла, что к чему. И так, мой сет генов принимает участие преимущественно в следующих процессах:

Метаболизм углеводов и их производных
Участие в заболеваниях (обычно инфекционных, либо связанных с метаболизмом)
Организация внеклеточного матрикса
Регуляция транспорта инсулин-подобного фактора роста

Ну и на конец остался самый легендарный мем (мы начали ЗВ, значит ими и закончим):