Практикум 10
Анализ обогащения: GO, Panther
Для начала я решил узнать, что за белки вообще мне достались. Для этого я выполнил на сайте GO анализ обогащения для выданного мне списка из 15 названий генов. Для получения максимального количества информации я последовательно провел анализ по всем трем типам категорий (биологические процессы, молекулярные функции и клеточные компоненты).
В качестве референса был взят выставленный по умолчанию на сайте геном человека. Подсчет вероятностей проводился с помощью точного теста Фишера. Для поправки на множественное тестирование значения False Discovery Rate были подсчитаны по методу Бенджамини-Хохберга.
В результате были получены три списка категорий, каждая из которых ассоциирована с тем или иным числом генов из списка (с вероятностью случайности таких же или более сильных связей меньше 0.05). Все найденные категории были перепредставлены в поданном списке, для краткости приведены только самые узкие из них (Табл. 1, 2, 3).
Категория | Генов в геноме | Генов в списке | Ожид. число генов из списка |
False Discovery Rate |
---|---|---|---|---|
coenzyme A biosynthetic process | 11 | 7 | 0.01 | 1.02E-14 |
pantothenate metabolic process | 4 | 4 | 0 | 7.93E-09 |
nucleoside triphosphate catabolic process | 13 | 2 | 0.01 | 1.41E-02 |
phosphate ion homeostasis | 20 | 2 | 0.01 | 3.05E-02 |
Категория | Генов в геноме | Генов в списке | Ожид. число генов из списка |
False Discovery Rate |
---|---|---|---|---|
pantothenate kinase activity | 4 | 4 | 0 | 6.43E-08 |
pantetheine hydrolase activity | 2 | 2 | 0 | 3.00E-03 |
acetyl-CoA binding | 3 | 2 | 0 | 2.78E-03 |
phosphodiesterase I activity | 5 | 2 | 0 | 4.37E-03 |
nucleoside triphosphate diphosphatase activity | 11 | 2 | 0.01 | 1.08E-02 |
ATP binding | 1491 | 7 | 1.09 | 1.08E-02 |
Судя по тому, что получилось при поиске общих биологических процессов и молекулярных функций, анализируемые белки действительно связаны между собой. В обоих случаях с низкими значениями P-value нашлись общие категории, имеющие отношение к метаболизму кофермента А и биохимически связанных с ним соединений (пантотеин, пантотеновая кислота). Также несколько белков из списка, судя по всему, участвуют в обмене фосфора, однако пока не очевидно, связаны ли две найденные группы между собой.
Категория | Генов в геноме | Генов в списке | Ожид. число генов из списка |
False Discovery Rate |
---|---|---|---|---|
Где-то в клетке, наверное | 20589 | 15 | 15 | 0 |
Ожидаемо, выдача от поиска белков с одинаковой локализацией в клетке сильно отличается. В частности, в данном случае не было найдено ни одной пере- или недопредставленной категории. Причина такого результата не совсем понятна. Скорее всего, найденные пересечения просто были незначительными и не прошли порог по P-value. Компартментов в клетке гораздо меньше, чем метаболических путей. Поэтому то, что несколько белков из списка являются ядерными или митохондриальными, статистически значит меньше, чем если бы они были, например, ферментами в биосинтезе КоА (коих у нас всего 11).
Визуализация взаимосвязей: STRING
Чтобы узнать больше о функциональных взаимосвязях между исследуемыми белками, я загрузил список ID в онлайн-сервис STRING.
Первым делом он выдал названия и функции для всех белков списка:
- AASDHPPT - *слишком длинное название*, переносит фосфопантетеин от кофермента А на остаток серина в белке
- ACP2 - лизосомная кислая гистидиновая фосфатаза (похоже, "лишний" белок)
- COASY - бифункциональная КоА-синтаза
- ENPP1/3 - пирофосфатазы/фосфодиэстеразы
- GCDH - глутарил-КоА дегидрогеназа (опять что-то про КоА, но явно не про его биосинтез)
- PANK1-4 - пантотенат киназы (биосинтез КоА)
- PPCDC - фосфопантотеноилцистеин декарбоксилаза, декарбоксилирует фосфопантотеноилцистеин в биосинтезе КоА
- PPCS - фосфопантотенат-цистеин лигаза, тоже из биосинтеза КоА
- SYCE2 - белок синаптонемального комплекса, участвует в мейозе (опять "лишний")
- VNN1-2 - пантотеиназы
Далее установленные различными способами взаимосвязи между белками были проиллюстрированы в виде графа (Рис. 1). В настройках диаграммы я отключил источник информации "textmining", чтобы, во-первых, не загромождать картинку (желтые линии были практически везде), а во-вторых, оставить только информацию, полученную из достоверных или хотя бы курируемых источников.
Выданный сайтом граф, в целом, согласуется с информацией, которую можно получить, просто прочитав функции белков. Наибольшее число связей имеется между близкородственными белками (ENPP1 и ENPP3, VNN1 и VNN2) и белками, вовлеченными в процесс биосинтеза кофермента А (COASY, PANK1-3, PPCDC и PPCS). Белки AASDHPPT, GCDH, VNN1 и VNN2 катализируют процессы с участием КоА, не имеющие отношения к его биосинтезу. Поэтому их связи с другими белками несущественны. "Лишний" белок SYCE2, что и требовалось доказать, не взаимодействует ни с одним белком списка. Другая ситуация наблюдается для ACP2: согласно информации из курируемых баз данных он связан ферментами ENPP1/3. Наконец, белок PANK4 почему-то стоит особняком от своих собратьев.
Метаболические пути: KEGG
По невероятному стечению обстоятельств, целых 7 из 15 белков списка участвуют в биосинтезе кофермента А. В связи с этим я решил сопоставить их с отделными стадиями этого процесса, которые они катализируют.
Для этого в базе данных KEGG я нашел метаболическую карту, описывающую обмен пантотеновой кислоты и кофермента А. (map00770 в KEGG Pathway). В ней, в свою очередь, я нашел модуль, соответствующий биосинтезу кофермента А (M00120). В окне, всплывающем при наведении мышки на код фермента, перечислены его названия и идентификаторы. Ориентируясь на функции описываемых белков, я нашел их на карте. Пользуясь ссылками на странице модуля биохимического пути, я нашел уравнения интересующих меня реакций.
Путь синтеза КоА с отмеченными названиями белков приведен на рисунке ниже (Рис. 2).
Таким образом, на первой стадии процесса наши киназы PANK1-3 (PANK4 почему-то опять не при делах) фосфорилируют пантотенат, после чего PPCS с затратой АТФ пришивает к его карбоксигруппе аминогруппу цистеина. Потом COASY переносит на фосфат получившейся молекулы остаток АМФ из АТФ с высвобождением пирофосфата. Этот же фермент (на то он и бифункциональный) катализирует фосфорилирование 3'-гидроксила остатка АДФ в составе синтезированного вещества. На выходе получается свободный кофермент А.