Целью данного практикума было попробовать находить информацию в различных базах данных. Для освоения я выбрала базы GO и Human Protein Atlas.
Мне был выдан следующий список генов для анализа (описание генов и их продуктов я составила на основе информации из базы данных OMIM):
Проведем анализ обогащения терминами с помощью базы GO. Простыми словами, для каждого из заданных генов найдем, с какими терминами (молекулярными функциями, биологическими процессами и клеточными компонентами) ассоциирован продукт этого гена. Посмотрим, в каких биологических процессах участвуют наши гены, то есть выполним обогащение терминами по биологическим процессам. Воспользуемся тестом Фишера, сделаем поправку на множественность FDR.
Таблица с выдачей результатов анализа обогащения приведена по ссылке. Всего в выдаче 18 терминов, значения p-value и FDR у всех находок достаточно низкие, что говорит об их достоверности. Лучшие находки имеют в графе Fold Enrichment значение >100, это наблюдается для 12 терминов, среди которых гены синтеза и метаболизма гиалуроновой кислоты, полисахаридов, аминогликанов и гликозаминогликанов, ответа на фактор роста, выделяемый тромбоцитами, сборки внеклеточного матрикса.
Визуализируем результаты в Quick GO, получим граф, представленный ниже
Из полученного графа видно, что гены из моего набора участвуют в синтезе гиалуроновой кислоты, гликозаминогликанов и полисахаридов, в сборке и организации межклеточного матрикса, а также в ответе на фактор роста, выделяемый тромбоцитами. Таким образом, биологические процессы, в которых участвуют гены моего набора, можно разделить на три большие группы - метаболический процесс, образование или организация клеточных компонентов и ответ на эндогенный стимул.
В базе данных Human Protein Atlas хранится информация о белковых продуктах генов, их тканевой и клеточной локализации, структурах и функциях. Я решила получить более подробную информацию о белковом продукте гена CEMIP.
Название белка, кодируемого данным геном - Cell migration inducing hyaluronidase 1, что переводится на русский как гиалунидаза 1, индуцирующая клеточную миграцию. из блока информации “PROTEIN EXPRESSION AND LOCALIZATION” узнаем, что белок локализован в фибриллярном центре ядрышек, ядерной мембране, ЭПР; различные изоформы этого белка могут секретироваться в межклеточную среду или находиться в цитоплазме клеток. В блоке “TISSUE RNA EXPRESSION” получаем экспрессионный профиль, из которого видно, что наибольший уровень экспрессии белка отмечается в эндометрии и шейке матки, сосудистом сплетении мягкой мозговой оболочки (choroid plexus), мочевом пузыре, легких, аппендиксе и лимфатических узлах. Из “PROTEIN FUNCTION” узнаем, что по данным базы Uniprot этот белок может связываться с гиалуроновой кислотой, опосредует деполимеризацию гиалуроновой кислоты через связанный с клеточной мембраной клатриновый эндоцитарный путь, способствует эпителиально-мезенхимальному переходу и, следовательно, росту опухолей и их метастазированию. Ниже показаны описанный выше экспрессионный профиль и структура белка, предсказанная Alphafold.
Выводы: в ходе данного практикума мною была освоен поиск информации в двух базах данных - GO и Human Protein Atlas. С помощью GO был проведен анализ обогащения биологическими терминами, что позволило получить систематизированную информацию о том, в каких процессах участвуют продукты генов, в виде графа. С помощью базы данных Human Protein Atlas удалось подробно ознакомиться с белковым продуктом одного из генов, узнать его внутриклеточную локализацию, посмотреть информацию об уровнях экспрессии в различных тканях человека и увидеть трехмерную структуру, предсказанную AlphaFold.