Селифонов (slfn) учебный сайт; Обо мне

Практикум 10

Анализ обогащения: GO, Panther

Для начала я решил узнать, что за белки вообще мне достались. Для этого я выполнил на сайте GO анализ обогащения для выданного мне списка из 15 названий генов. Для получения максимального количества информации я последовательно провел анализ по всем трем типам категорий (биологические процессы, молекулярные функции и клеточные компоненты).

В качестве референса был взят выставленный по умолчанию на сайте геном человека. Подсчет вероятностей проводился с помощью точного теста Фишера. Для поправки на множественное тестирование значения False Discovery Rate были подсчитаны по методу Бенджамини-Хохберга.

В результате были получены три списка категорий, каждая из которых ассоциирована с тем или иным числом генов из списка (с вероятностью случайности таких же или более сильных связей меньше 0.05). Все найденные категории были перепредставлены в поданном списке, для краткости приведены только самые узкие из них (Табл. 1, 2, 3).

Табл. 2 Категории типа "biological process".
Категория Генов в геноме Генов в списке Ожид. число
генов из списка
False Discovery Rate
coenzyme A biosynthetic process 11 7 0.01 1.02E-14
pantothenate metabolic process 4 4 0 7.93E-09
nucleoside triphosphate catabolic process 13 2 0.01 1.41E-02
phosphate ion homeostasis 20 2 0.01 3.05E-02
Табл. 1 Категории типа "molecular function".
Категория Генов в геноме Генов в списке Ожид. число
генов из списка
False Discovery Rate
pantothenate kinase activity 4 4 0 6.43E-08
pantetheine hydrolase activity 2 2 0 3.00E-03
acetyl-CoA binding 3 2 0 2.78E-03
phosphodiesterase I activity 5 2 0 4.37E-03
nucleoside triphosphate diphosphatase activity 11 2 0.01 1.08E-02
ATP binding 1491 7 1.09 1.08E-02

Судя по тому, что получилось при поиске общих биологических процессов и молекулярных функций, анализируемые белки действительно связаны между собой. В обоих случаях с низкими значениями P-value нашлись общие категории, имеющие отношение к метаболизму кофермента А и биохимически связанных с ним соединений (пантотеин, пантотеновая кислота). Также несколько белков из списка, судя по всему, участвуют в обмене фосфора, однако пока не очевидно, связаны ли две найденные группы между собой.

Табл. 3 Категории типа "cellular component".
Категория Генов в геноме Генов в списке Ожид. число
генов из списка
False Discovery Rate
Где-то в клетке, наверное 20589 15 15 0

Ожидаемо, выдача от поиска белков с одинаковой локализацией в клетке сильно отличается. В частности, в данном случае не было найдено ни одной пере- или недопредставленной категории. Причина такого результата не совсем понятна. Скорее всего, найденные пересечения просто были незначительными и не прошли порог по P-value. Компартментов в клетке гораздо меньше, чем метаболических путей. Поэтому то, что несколько белков из списка являются ядерными или митохондриальными, статистически значит меньше, чем если бы они были, например, ферментами в биосинтезе КоА (коих у нас всего 11).

Визуализация взаимосвязей: STRING

Чтобы узнать больше о функциональных взаимосвязях между исследуемыми белками, я загрузил список ID в онлайн-сервис STRING.

Первым делом он выдал названия и функции для всех белков списка:

  • AASDHPPT - *слишком длинное название*, переносит фосфопантетеин от кофермента А на остаток серина в белке
  • ACP2 - лизосомная кислая гистидиновая фосфатаза (похоже, "лишний" белок)
  • COASY - бифункциональная КоА-синтаза
  • ENPP1/3 - пирофосфатазы/фосфодиэстеразы
  • GCDH - глутарил-КоА дегидрогеназа (опять что-то про КоА, но явно не про его биосинтез)
  • PANK1-4 - пантотенат киназы (биосинтез КоА)
  • PPCDC - фосфопантотеноилцистеин декарбоксилаза, декарбоксилирует фосфопантотеноилцистеин в биосинтезе КоА
  • PPCS - фосфопантотенат-цистеин лигаза, тоже из биосинтеза КоА
  • SYCE2 - белок синаптонемального комплекса, участвует в мейозе (опять "лишний")
  • VNN1-2 - пантотеиназы

Далее установленные различными способами взаимосвязи между белками были проиллюстрированы в виде графа (Рис. 1). В настройках диаграммы я отключил источник информации "textmining", чтобы, во-первых, не загромождать картинку (желтые линии были практически везде), а во-вторых, оставить только информацию, полученную из достоверных или хотя бы курируемых источников.

Рис. 1. Граф, отражающий функциональные взаимосвязи между белками. Источник информации "textmining" отключен.

Выданный сайтом граф, в целом, согласуется с информацией, которую можно получить, просто прочитав функции белков. Наибольшее число связей имеется между близкородственными белками (ENPP1 и ENPP3, VNN1 и VNN2) и белками, вовлеченными в процесс биосинтеза кофермента А (COASY, PANK1-3, PPCDC и PPCS). Белки AASDHPPT, GCDH, VNN1 и VNN2 катализируют процессы с участием КоА, не имеющие отношения к его биосинтезу. Поэтому их связи с другими белками несущественны. "Лишний" белок SYCE2, что и требовалось доказать, не взаимодействует ни с одним белком списка. Другая ситуация наблюдается для ACP2: согласно информации из курируемых баз данных он связан ферментами ENPP1/3. Наконец, белок PANK4 почему-то стоит особняком от своих собратьев.

Метаболические пути: KEGG

По невероятному стечению обстоятельств, целых 7 из 15 белков списка участвуют в биосинтезе кофермента А. В связи с этим я решил сопоставить их с отделными стадиями этого процесса, которые они катализируют.

Для этого в базе данных KEGG я нашел метаболическую карту, описывающую обмен пантотеновой кислоты и кофермента А. (map00770 в KEGG Pathway). В ней, в свою очередь, я нашел модуль, соответствующий биосинтезу кофермента А (M00120). В окне, всплывающем при наведении мышки на код фермента, перечислены его названия и идентификаторы. Ориентируясь на функции описываемых белков, я нашел их на карте. Пользуясь ссылками на странице модуля биохимического пути, я нашел уравнения интересующих меня реакций.

Путь синтеза КоА с отмеченными названиями белков приведен на рисунке ниже (Рис. 2).

метабокарта
Рис. 2. Участие белков из списка в биосинтезе кофермента А.

Таким образом, на первой стадии процесса наши киназы PANK1-3 (PANK4 почему-то опять не при делах) фосфорилируют пантотенат, после чего PPCS с затратой АТФ пришивает к его карбоксигруппе аминогруппу цистеина. Потом COASY переносит на фосфат получившейся молекулы остаток АМФ из АТФ с высвобождением пирофосфата. Этот же фермент (на то он и бифункциональный) катализирует фосфорилирование 3'-гидроксила остатка АДФ в составе синтезированного вещества. На выходе получается свободный кофермент А.