Практикум 6. Базы данных KEGG, GO и другие


Целью данного практикума было попробовать находить информацию в различных базах данных. Для освоения я выбрала базы GO и Human Protein Atlas.

Мне был выдан следующий список генов для анализа (описание генов и их продуктов я составила на основе информации из базы данных OMIM):

  • ABCC5 - ген, кодирующий белок MRP5, ассоциированный с множественной лекарственной устойчивостью у нормальных и опухолевых клеток - ABC-транспортер, выкачивающий из клеток различные молекулы с затратой АТФ;
  • CEMIP - ген, кодирующий гиалунидазу 1, индуцирующую миграцию клеток;
  • HAS2, HAS2 и HAS3 - гены, кодирующие гиалунонан-синтазы - ферменты, ответственные за синтез гиалуроновой кислоты - гликозаминогликана, одного из основных полимеров в межклеточном веществе.

1. База данных GO

Проведем анализ обогащения терминами с помощью базы GO. Простыми словами, для каждого из заданных генов найдем, с какими терминами (молекулярными функциями, биологическими процессами и клеточными компонентами) ассоциирован продукт этого гена. Посмотрим, в каких биологических процессах участвуют наши гены, то есть выполним обогащение терминами по биологическим процессам. Воспользуемся тестом Фишера, сделаем поправку на множественность FDR.

Рисунок 1. Параметры запуска анализа обогащения биологическими терминами

Таблица с выдачей результатов анализа обогащения приведена по ссылке. Всего в выдаче 18 терминов, значения p-value и FDR у всех находок достаточно низкие, что говорит об их достоверности. Лучшие находки имеют в графе Fold Enrichment значение >100, это наблюдается для 12 терминов, среди которых гены синтеза и метаболизма гиалуроновой кислоты, полисахаридов, аминогликанов и гликозаминогликанов, ответа на фактор роста, выделяемый тромбоцитами, сборки внеклеточного матрикса.


Визуализируем результаты в Quick GO, получим граф, представленный ниже

Рисунок 3. Граф, отражающий результаты анализа обогащения биологическими терминами

Из полученного графа видно, что гены из моего набора участвуют в синтезе гиалуроновой кислоты, гликозаминогликанов и полисахаридов, в сборке и организации межклеточного матрикса, а также в ответе на фактор роста, выделяемый тромбоцитами. Таким образом, биологические процессы, в которых участвуют гены моего набора, можно разделить на три большие группы - метаболический процесс, образование или организация клеточных компонентов и ответ на эндогенный стимул.


2. База данных Human Protein Atlas

В базе данных Human Protein Atlas хранится информация о белковых продуктах генов, их тканевой и клеточной локализации, структурах и функциях. Я решила получить более подробную информацию о белковом продукте гена CEMIP.

Название белка, кодируемого данным геном - Cell migration inducing hyaluronidase 1, что переводится на русский как гиалунидаза 1, индуцирующая клеточную миграцию. из блока информации “PROTEIN EXPRESSION AND LOCALIZATION” узнаем, что белок локализован в фибриллярном центре ядрышек, ядерной мембране, ЭПР; различные изоформы этого белка могут секретироваться в межклеточную среду или находиться в цитоплазме клеток. В блоке “TISSUE RNA EXPRESSION” получаем экспрессионный профиль, из которого видно, что наибольший уровень экспрессии белка отмечается в эндометрии и шейке матки, сосудистом сплетении мягкой мозговой оболочки (choroid plexus), мочевом пузыре, легких, аппендиксе и лимфатических узлах. Из “PROTEIN FUNCTION” узнаем, что по данным базы Uniprot этот белок может связываться с гиалуроновой кислотой, опосредует деполимеризацию гиалуроновой кислоты через связанный с клеточной мембраной клатриновый эндоцитарный путь, способствует эпителиально-мезенхимальному переходу и, следовательно, росту опухолей и их метастазированию. Ниже показаны описанный выше экспрессионный профиль и структура белка, предсказанная Alphafold.


Рисунок 4. Экспрессионный профиль белка, кодируемого геном CEMIP, в тканях человека

Рисунок 5. Структура белка, кодируемого геном CEMIP, полученная с помощью Alphafold

Выводы: в ходе данного практикума мною была освоен поиск информации в двух базах данных - GO и Human Protein Atlas. С помощью GO был проведен анализ обогащения биологическими терминами, что позволило получить систематизированную информацию о том, в каких процессах участвуют продукты генов, в виде графа. С помощью базы данных Human Protein Atlas удалось подробно ознакомиться с белковым продуктом одного из генов, узнать его внутриклеточную локализацию, посмотреть информацию об уровнях экспрессии в различных тканях человека и увидеть трехмерную структуру, предсказанную AlphaFold.