Представим, что я получил данные транскриптомного секвенирования какой-то ткани человека (предположим, что я знаю, какой и в каком состоянии). Мне стало интересно, уровень транскрипции каких белков превышен в этой ткани относительно базального. Я работал, работал, работал... пока не получил этот список. Это те самые белки. Теперь хочется ответить на вопрос, связаны ли эти белки функционально, ведь наверняка не спроста увеличился уровень транскрипции генов именно этих белков. А вот как это сделать, мы с вами сейчас и узнаем.
Для ответа на вопрос я выбрал базы данных STRING и GENE ONTOLOGY (GO).
STRING - это база данных известных и предсказанных белок-белковых взаимодействий. С помощью неё можно построить красивый граф, на котором будет указано, вступают ли белок А с белком В во взаимодействие. Так я и сделал (см. рис. 2).
На этом графе в узлах находятся белки, указанные в списке. А рёбрам разных цветов соответствуют разные способы добывания базой данных информации о существовании данного взаимодействия. Не хотел бы останавливаться сейчас на разъяснении каждого оттенка рёбер: не вижу сейчас в этом необходимости. Вся эта информация представлена на странице выдачи STRING.
Далее я применил MCL-кластеризацию со значением inflation parameter 2. Не знаю, как грамотно перевести этот второй термин на русский. А сам алгоритм - алгоритм кластеризации Маркова (Markov Cluster Algorithm). Граф разбился примерно на 3 кластера (см. рис. 3).
Что логично и ожидаемо, в одинаковые кластеры попали гомологичные белки (например, PFKB3 и PFKB4). ENOSF1 на обоих графах стоит особняком. Это тоже вполне ожидаемо, т.к. это, кажется, единственный митохондриальный белок в списке. У него с остальными белками никаких связей нет. А все другие белки так или иначе, по-видимому, связаны между собой функционально. Это тоже вполне ожидаемо, т.к. все они вовлечены в углеводный обмен, согласно информации на странице выдачи STRING.
GO - ещё одна база данных. В ней помещена информация о функциях генов, а также о биологической терминологии. В GO создана сеть взаимоотношений терминов и функций, и онлайн-сервис позволяющий провести анализ на обогащение. Существуют ли термины, которыми описывается функциональная роль достоверного большинство имеющихся в датасете генов?
Я запустил такой анализ (с параметром biological process) на моём списке генов. Вот его сырые результаты.
Применив сортировку по E-value, можно узнать, что в моём списке наблюдается более чем стократное насыщение по многим функциям, связанным с метаболизмом углеводов (fructose biosynthetic process, sucrose biosynthetic process, sucrose metabolic process и др.). P-value для этих терминов много ниже порогового 0,05 (даже и 0,01; значения около 10-10). Значит, результат вполне достоверен!
Итак, с помощью различных баз данных можно получить информацию о том, насколько функционально взаимосвязаны (или наоборот, разобщены) белки в имеющемся наборе. На примере этого практикума видно, что разные базы данных могут давать ответы на разные вопросы, связанные с одним и тем же набором данных. Так что лучше при анализе выборки белков обращаться к нескольким базам данных.