Практикум 11. GO, String, Human protein atlas
Этот практикум посвящён изучению некоторого набора генов с помощью базы данных Gene Ontology, сервисов String и Human protein atlas.
GO Enrichment Analysis
Для анализа обогащения был взят список из 19 ID генов из файла list38.txt.
В анализе участвовали все 19 генов, один из которых (PRKACA) был картирован дважды.
Выдача содержала 80 GO terms (находки с FDR-adjusted P-value < 0.05).
Ниже приведён список 10 самых значимых GO terms:
• positive regulation of sequestering of triglyceride (GO:0010890)
• regulation of sequestering of triglyceride (GO:0010889)
• positive regulation of lipid storage (GO:0010884)
• lipid storage (GO:0019915)
• regulation of lipid storage (GO:0010883)
• neutral lipid catabolic process (GO:0046461)
• acylglycerol catabolic process (GO:0046464)
• positive regulation of lipid localization (GO:1905954)
• glycerolipid catabolic process (GO:0046503)
• maintenance of location (GO:0051235)
На рисунке 1 можно видеть визуализацию взаимоотношений 5 самых значимых GO terms в виде графа, полученного с помощью сервиса Quick GO.
Поскольку все 5 терминов соответствуют 1 ID гена из входного списка, они тесно связаны между собой; судя по всему, исходный ген отвечает за положительную регуляцию связывания и запасания жиров. Из 5 GO terms 4, обозначающие, в общих чертах, регуляцию запасания жиров, связаны между собой отношением «является»; с 5-м термином, обозначающим запасание жиров, они связаны отношениями «регулирует» и «положительно регулирует».
Чтобы охарактеризовать весь список генов в целом, можно отметить следующие GO terms из выдачи: «regulation of lipid storage», «regulation of lipid metabolic process», «phospholipid metabolic process», «polysaccharide metabolic process», «response to glucagon», «regulation of defense response», «hemostasis», «regulation of circadian rhythm». Можно предположить, что гены из списка объединены тем, что они играют роль в регуляции метаболизма запасных веществ.
String
При анализе изучаемого списка генов с помощью сервиса String был получен граф, представленный на рисунке 2.
Для 17 из 19 белков, являющихся продуктами экспрессии генов из списка, известна структура; для 2 - FITM1 и FITM2 - не известна.
Исходя из графа, можно отметить 2 группы из 3 белков каждая (PPP1CA, PPP1CB, PPP1CC и PRKACA, PRKACB, PRKACG), внутри которых белки тесно связаны отношениями гомологии, консервативности, коэкспрессии, экспериментально подтверждённого взаимодействия и др.; при этом PPP1CA связан с белками второй группы отношениями коэкспрессии, экспериментально подтверждённого взаимодействия и др. Такая связь неудивительна, т. к. первая группа (PPP1CA, PPP1CB, PPP1CC) включает в себя белки, являющиеся каталитическими субъединицами фосфатазы PP1, в то время как белки второй группы (PRKACA, PRKACB, PRKACG) представляют собой субъединицы цАМФ-зависимой протеинкиназы. По-видимому, упомянутые белки выполняют регуляторную функцию путём фосфорилирования/дефосфорилирования других белков. Также можно выделить группу из 3 моноглицеридлипаз (ABHD6, ABHD12, MGLL), связанных отношениями соседства генов. Остальные белки связаны между собой в основном отношениями коэкспрессии и совместного упоминания в литературе.
На рисунке 3 изображена диаграмма, отражающая представленность генов из списка в разных таксономических группах.
Можно сделать вывод, что все изучаемые гены консервативны у класса Mammalia (с единичными исключениями, как, например, отсутствие гена BSCL2 у Ornithorhynchus anatinus). На уровне клады Amniota перестаёт быть консервативным ген PLIN4, на уровне типа Chordata не консервативны гены PLIN1, CIDEA и т. д.
Рисунок 4 отображает паттерны совместной экспрессии генов из списка.
Вначале стоит обратить внимание на коэкспрессию генов в других организмах, кроме Homo sapiens. Видно, что гены PRKACA, PRKACB, PRKACG экспрессируются совместно, также, как и гены PPP1CA, PPP1CB, PPP1CC (объясняется функциональной связью их продуктов, см. выше). Кроме того, можно заметить, что ген CIDEA (одна из функций белка - связывание с липидными включениями и предотвращение липолиза) коэкспрессируется с генами FITM1 (кодирует трансмембранный белок, нужен для накопления липидов в клетке), PLIN2, PLIN3, PLIN4 (кодируют перилипины, которые защищают липидные капли в адипоцитах от липолиза), MGLL, LPL (кодируют различные липазы), FABP4 (продукт связывает жирные кислоты). Вероятно, именно этот комплекс генов отвечает за регуляцию запасания жиров, в т. ч. в адипоцитах.
Паттерны коэкспрессии в Homo sapiens несколько отличаются: во-первых, отсутствуют свидетельства совместной экспрессии генов PRKACA, PRKACB, PRKACG (не совсем понятно, почему; зато лучше прослеживается коэкспрессия PPP1CA, PPP1CB, PPP1CC), во-вторых, изменилась роль гена PLIN1: теперь он (вместо PLIN3) экспрессируется совместно с CIDEA, а также сильнее связан с экспрессией PLIN4 и FABP4.
Human protein atlas
Для изучения был выбран ген с ID: PLIN2.
Данный ген кодирует белок перилипин, который ассоциирован с внутриклеточными липидными каплями.
Как следует из рисунка 5, этот белок не является специфичным для какого-либо участка головного мозга.
Рисунок 6 показывает, что локализация белка в клетке связана с жировыми каплями.
На рисунке 7 можно видеть сравнение экспрессии гена как мРНК и белка в различных тканях.
Любопытно, что в тканях эндокринной и репродуктивной систем, желудочно-кишечного тракта и кожи содержание белка значительно превышает содержание мРНК, в то время как в жировой ткани - наоборот.
Диаграмма на рисунке 8 показывает, что ген преимущественно экспрессируется (мРНК) в тканях пищеварительной, выделительной и женской репродуктивной систем, а также в жировой ткани, мышечной ткани и крови.