Практикум 6

Анализ набора генов с помощью баз данных

Мне достался список из 79 белков. Вероятно, они представляют собой какой-то один или несколько метаболических путей. Отдельно не вижу смысла их рассматривать, так что дальнейший анализ буду проводить в базах данных.

Базы данных GO

База данных Gene Ontology (GO) представляет собой структурированную сеть (граф) биологических понятий. В этой сети узлы соответствуют терминам GO, а ребра — различным типам связей между этими терминами.

Онтология GO включает в себя следующие категории терминов:

  • Молекулярные функции (Molecular Function, MF): описывают специфическую биохимическую активность отдельного генного продукта.
  • Биологические процессы (Biological Process, BP): определяют целенаправленные комплексные явления, состоящие из последовательностей молекулярных функций и необходимые для поддержания жизни организма.
  • Клеточные компоненты (Cellular Component, CC): указывают на местонахождение генного продукта в клетке или во внеклеточном пространстве.

GO-аннотации - это утверждения, основанные на научных публикациях, которые связывают конкретный генный продукт с определённым термином GO. Совокупность всех аннотаций для гена описывает его предполагаемую биологическую роль. Таким образом, GO выступает в качестве универсального языка, устанавливающего связь между генами и их функциями.

Отдельным компонентом является система классификации PANTHER, которая интегрирована с GO и позволяет проводить статистический анализ обогащения GO-терминами для нахождения общих биологических функций всех поданных на вход генов.

Поиск я осуществлял с использованием теста Фишера (Fisher's Exact) и с поправкой Бонферрони на множественную проверку гипотез (Bonferroni correction for multiple testing).

Для Biological Process (BP) было найдено 9152 соответствия, значимых из них (p-value < 0.05) - 122, что говорит о том, что данные ферменты участвуют в совершенно различных процессах и, вероятно, отбирались не по какому-то метаболическому пути, а по своей функциональной принадлежности. Результаты выдачи.

Наиболее статистически значимые находки по Biological Process
Рис. 1 Наиболее статистически значимые находки по Biological Process

Для Molecular Function (MF) было найдено 3122 соответствия, из которых значимых только 20.

Результаты выдачи.

Наиболее статистически значимые находки по Molecular Function
Рис. 2 Наиболее статистически значимые находки по Molecular Function

Как можно видеть, большинство ферментов относится к гликозилтрансферазам или сиалилтрансферазам, что является подклассом гликозилтрансфераз. Гликозилтрансферазы — это ферменты, участвующие в посттрансляционной модификации многих белков, навешивая на них в процессе гликозилирования сахарные остатки. Уникальные последовательности полисахаридов на мембранных белках служат "маркерами" при межклеточном взаимодействии.

Reactome

Выдача GO по участию этих ферментов в биологических процессах из-за недостатка данных оказалась не слишком информативной, потому я решил загрузить свои белки в Reactome, где, как я понял, происходит почти тот же процесс, что и в GO, но есть встроенный инструмент для визуализации находок с отображением иерархии процессов, в которых они участвуют, что даст гораздо больше понимания. Также там есть огромное количество функций, в том числе можно посмотреть уровни экспрессии всех искомых генов по различным тканям человека (как я понял, информация берется из других баз данных).

Результат поиска

Общий вид выдачи визуализированный с ReacFoam
Рис. 3 Общий вид выдачи, визуализированный с помощью ReacFoam, построенной с использованием диаграммы Вороного. Цветом показан p-value находки: чем темнее, тем выше (хуже) p-value.

Информация о N-гликозилировании
Рис. 4 Как я уже понял, немного почитав про гликозилтрансферазы, белки из данной выборки действительно в основном занимаются посттрансляционной модификацией белков, а именно присоединением олигосахаридов (гликанов) к N-концу аспарагина (N-гликозилирование). В этой же базе данных посмотрел на уровни экспрессии генов, и ощутимая часть из них связана с ЖКТ, что соотносится с моими представлениями о формировании гликокаликса.

Заболевания, связанные с SLC-транспортерами
Рис. 5 Заболевания, связанные с нарушением функции SLC-транспортеров, нарушают перенос молекул между различными клетками, в том числе абсорбцию молекул в кишечнике и перенос нейромедиаторов. Некоторые SLC-транспортеры являются гликопротеинами, их правильное созревание может нарушаться при мутациях в гликозилтрансферазах. Также, я думаю, в целом нарушается правильность межклеточного общения, из-за чего эти заболевания и возникают.

Заболевания, связанные с нарушением гликозилирования
Рис. 6 Если гликозилтрансферазы участвуют в гликозилировании, очевидно, что заболевания, связанные с нарушением гликозилирования, тоже будут в находках.

Другие связанные метаболические пути
Рис. 7 Также в находках есть метаболизм углеводов, биосинтез групп крови и метаболизм сфинголипидов. Собственно, перенося сахар на белок, гликозилтрансферазы завершают метаболический путь. Группы крови тоже кодируются гликанами, а сфинголипиды — это класс гликозилированных липидов.

Подводя итоги, можно сказать, что этот инструмент позволил мне гораздо глубже взглянуть на участие данных мне белков в различных процессах, включая различные заболевания.

Набор белков совершенно не случаен, а представляет собой функциональную группу различных гликозилтрансфераз, которые участвуют в образовании гликопротеинов, важных для межклеточного взаимодействия.