Artyom, main page

Исходные данные

Мне достался набор генов среднего размера со следующими ID: AK1 TPK1 AK2 AK4 AK5 NTPCR AK7 AK8 NFS1 THTPA ALPP ALPL ACP1 ALPI ALPG

Сказать сразу что то сложно, поэтому обратимся в Gene Ontology & PANTHER

Результаты и обсуждение

Gene Ontology & PANTHER

Запускаем GO Enrichment Analysis для этого сета генов со следующими параметрами (Рис 1). Получается довольно большая таблица на выходе. FOLD enrichment, количество белков в категориях и значения FDR говорят о том, что набор генов не совсем случайный.

Из output'a можно вытащить более полные названия белков:
ALPL, ALPG, ALPP, ALPI - Alkaline phosphatases (по-русски Щелочные фосфатазы)
THTPA - Thiamine-triphosphatase
TPK1 - Thiamin pyrophosphokinase 1
NTPCR - Cancer-related nucleoside-triphosphatase
NFS1 - Cysteine desulfurase, mitochondrial
ACP1 - Low molecular weight phosphotyrosine protein phosphatase
AK1, AK2, AK4, AK5, AK7, AK8 - Adenylate kinases

Если искать общность этих белков в биологических процессах то можно выделить следующие процессы в которых они участвуют: В ADP biosynthetic process: AK1, AK2, AK4, AK5 В thiamine diphosphate biosynthetic process: TPK1, THTPA В nucleoside monophosphate phosphorylation: AK1, AK2, AK4, AK5, AK7, AK8 dephosphorylation: ALPL, ALPG, ALPP, THTPA, ALPI

При этом 13/15 белков учатсвуют в метаболитических процессах связанных с фосфатами - то есть все кроме NTPCR и NFS1 получается? Вообще NTPCR судя по названию очевидно работает с фосфатами, но для него просто неаннотированы биологические процессы в Gene Ontology (Рис 2).

Запустим GO Enrichment Analysis с параметром Annotation Data Set: Panther GO-slim Molecular Function и получим что большиснтво белков относятся к классу гидролаз (конкретнее - фосфатаз) и трансфераз (конкретнее - киназ).

**Рис.1** Параметры запуска GO Enrichment Analysis.

**Рис.2** Аннотация NTPCR (биологические процессы неаннотированы).

**Рис.3** Annotation Data Set: Panther GO-slim Molecular Function.

STRING

Включая все источники ребер графа получаем следующую картинку (Рис. 4), где NFS1 и ACP1 аутсайдеры, которые не имеют вообще никаких связей с дргуими белками. Для NFS1 это ожидаемо, потому что это вообще митохондриальный фермент другого класса. Для ACP1 впринципе нет статей про взаимодействие с другими белками и частично нет аннотации в GO и Reactome. Причину аутсайдерства NFS1 и ACP1 обсудим еще ниже. Еще обратим внимание на мощный кластер щелочных фосфатаз (ALP), в который входят ALPI (Alkaline phosphatase, intestinal), ALPG (Alkaline phosphatase, germ cell), ALPP (Alkaline phosphatase, placental) и ALPL (Alkaline phosphatase, tissue-nonspecific isozyme)

Посмотрим какие белки могут физически взоимодействовать между собой. Поставим Network type: physical subnetwork. Получаем, что ALPI, ALPG, ALPP могут взаимодествовать между собой. Странно конечно что там нет ALPL, но вероятно неполнота данных. Может они образуют какой то мультисубъединичный комплекс? По названию понимаем что это скорее всего просто три разных изоформы щелочной фосфатазы, которые функционируют в разных органах: в плаценте, кишечнике и в гонадах. Тогда вообще странно, что они физически взаимодействуют, потому что они не должны экспрессироваться одновременно (оставляя в active interaction sources только Co‑expression убеждаемся в отсутсвии коэкспрессии). Посмотрим почему так. Кликая на граф понимаем, что это взаимодействие подтверждено афинной хроматографией и ко-иммуноприцепитацией в статьях, в которых просто все смешивали и смотрели взаимодействия (Рис. 5). Ничего нам особо это не говорит. Ну и ладно.

**Рис.4** Граф STRING для выданных белков.

**Рис.5** Network type: physical subnetwork.

**Рис.6** Подтверждение физического взаимодействия изоформ ALP.

Заметим что, все белки кроме наших аутсайдеров напрямую или косвенно связаны между собой линией одного цвета. Это исчточник active interaction source "Databases". Проведем MCL кластеризацию по этому источнику и увидим что все белки кроме NFS1 и ACP1 кластеризуются в один кластер (Рис 7), и если мы провалимся во вкладку Databases в разделе viewers, то увидим что объединяющим фактором для этих всех белков, является участие в пути метаболизма тиамина (по данным KEGG).

Если мы кластеризуем по всем источникам кроме баз данных то у нас выделяется 3 кластера (Рис 7). Первый кластер (красный) - аденилат киназы и NTPCR, при этом NTPCR явно там ни к селу ни к городу, поскольку веса у ребер маленькие. Второй кластер (зеленый) - кластер изоформ щелочных фосфатаз, ну собственно было бы странно если бы было по другому, потому что это один фермент. ALPL туда не попала, потому что единственное что связывало ее с кластером щелочных фосфатаз с нормальным весом - это участвие в общем метаболитическом пути. Третий кластер (синий) - судя по всему это класстер ферментов которые напрямую взаимодействуют с тиамином в пути его метаболизма. При этом судя по графу метаболитических путей (Рис 7) TPK1 является одним из центральных ферментов этого пути. Посмотрим оправдаются ли эти ожидания когда начнем рассматривать KEGG (спойлер: действительно окажется, что в этом наборе TPK1 - единственный фермент, взаимодействующий с тиамином напрямую).

**Рис. 7** Кластеризация по базам данных. Кластеризовало в основном по KEGG - ну то есть по сути это кластеризация по метаболитическим путям.

**Рис. 8** Кластеризация по всем источникам кроме баз данных.

**Рис. 9** Карта метаболизма тиамина. Источник: KEGG. Зеленым выделены ферменты из изначального набора генов.

**Рис. 10** Карта метаболизма тиамина (немного подредактированная для наглядности). Источник: KEGG. Зеленым выделены ID генов ферментов которые осуществляют соответсвтующие стадии.

Ипользуя перекрестную ссылку из STRING попадаем в KEGG, а именно - в карту сборную метаболизма. Из нее видно что тиамин является продуктом метаболизма пуринов, витамина В6 и таких аминокислот как цистеин, тирозин и глицин. Еще через определенное количество стадий в тиамин могут превращаться продукты гликолиза.

Но в чем суть: мы видим здесь все 15 изначально выданных гена!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

То есть наши два аутсайдера сюда все таки попали. Но вопрос: почему STRING их не кластеризовал и даже не соединил ребрами? С NFS1 все впринципе понятно: он не проводит реакции с тиамином и ближайшими к нему метаболитами. С ACP1 возникают вопросики. Выставив в STRING все источники взаимодействий и minimum required interaction score = 0.001 мы получаем что все белки все таки связаны, однако ребра которые соединяют NFS1 и ACP1 имеют очень маленькие веса. Но главное - между ними так и не появилось связи по датабазам. Это вообще конечно очень интересно.

Если мы посмотрим на реакцию, которую по заявлению перекрестной ссылки катализирует ACP1, то обнаружим что перекрестная ссылка нам не врала. ACP1 (Low molecular weight phosphotyrosine protein phosphatase), несмотря на свое название, дейтсвительно может катализировать реакцию дефосфорилирования тиамина (Рис. 11).

Ответить на вопрос почему STRING не учитывает информацию об участии NFS1 и ACP1 в пути метаболизма тиамина сложно. Вероятно6, он посчитал тот факт, что NFS1 расположен в митохондриях и лишь опосредованно участвует в метаболизме тиамина, недостаточным для построения связи в графе, или это погрешности алгоритма.

**Рис. 11** ACP1 может катализировать реакцию дефосфорилирования тиамина.

Выводы

Касательно набора генов: Выданный набор генов объединяет то, что ферменты кодируемые ими участвуют в метаболизме тиамина. При этом в наборе присутсвует по несколько изоформ для аденилаткиназ (AK) и щелочных фосфотаз (ALP). 14 из 15 ферментов крутятся вокруг реакций фосфорилирования и дефосфорилирования тиамина. Тот самый 1 из 15 ферментов - это NFS1 (цистеин-десульфорилаза), которая тоже опосредованно участвует в метаболизме тиамина.

Касательно баз данных:

Gene Ontology дает нам общую информацию о наборе генов и направление, куда копать.
STRING сообщает о возможных связях между нашим набором генов, используя информацию из большого количества статей. Поможет кластеризовать гены. Однако для максимальной точности все взаимодействия желательно перепроверять, потому что даже имея высокую значимость, взаимодействие может не нести биологического смысла.
KEGG (конкретно - раздел про метаболизм) дает информацию о всех возможных метаболитических путях множества соединений. Однако, как мне показалось, должна содержать много неточностей или данных, требующих подтверждения, так как в некоторых моментах ссылается на статьи прошлого столетия. Еще, по моему личному субъективному мнению, довольно бесполезна в отрыве от других баз данных.

Главный вывод (вот и сказочке конец)

В каждой из баз данных могут быть пробелы в информации касательно какого-нибудь гена. В некоторых базах алгоритмы могут по каким-то странным причинам не учесть связь между генами, которая отображена в другой базе данных. Поэтому, наиболее полную информацию о целевом наборе генов можно получить, проанализировав информацию из хотя бы нескольких баз данных.