Базы данных

Собственно, к нам в руки попал список генов. Так как среди них не было ни одного знакомого, было решено тут же бежать в STRING с целью узнать, какие белки стоят за этими генами, в идеале найти какие-нибудь взаимосвязанные и проанализировать их с помощью других баз данных.

Итак, STRING — база данных, покрывающая почти 68 млн белков и их взаимодействия из разных организмов. Ей был скормлен выданный список генов. На выходе получился красивый граф, где в узлах соответствующие белки, а между отображены связи. Там же были представлены и результаты GO-анализа:

Рис. 1 Анализ обогащения по биологическому процессу на выданном списке генов

Заметно, что многие гены из списка кодируют белки, участвующие в транспорте и метаболизме различных липидов и их производных. Согласно выдаче, изначальный граф уже содержал значимо больше взаимодействий, чем случайный. Однако в нём очень много рёбер, обозначающий текс-майнинг, что скучновато осложняет анализ. Поэтому эти рёбра были убраны, но добавлены ещё узлы (Рис.2). В итоге обособилась группа из белков STS, SUMF1, SUMF2. Их взаимодействие экспериментально определено, SUMF1 и SUMF2 являются гомологами, ген STS соседствует с ними обоими, но SUMF1 и SUMF2 друг с другом нет. С ними мы пойдём в Human Protein Atlas.

Рис. 2 STRING network, включающая текст-майнинг (слева) и без него с добавлением узлов (справа)

Human Protein Atlas (HPA) — крупнейший ресурс, который содержит различного рода информацию о человеческих белках: их расположении в клетках, экспрессии в тканях, структуре, связи с заболеваниями. Отобранные нами белки тоже нашлись в нём (поиск по названию гена).

Ген STS, расположенный на Х-хромосоме, кодирует стероидную сульфатазу. Этот фермент играет ключевую роль в биосинтезе эстрогена, отщепляя сульфатную группу от его предшественника (Рис.3). Эта реакция является частью общего метаболизма липидов, а именно сфинголипидов. База данных Reactome предлагает даже скачать файл с общей схемой, но нам пригодится только часть (тот же Рис.3). В HPA найдём информацию о его тканевой экспрессии (Рис.4). РНК экспрессия этого гена характерна для многих тканей, но наиболее выражена в плаценте. А вот белок обнаруживается далеко не во всех, но так же наиболее выражена экспрессия в плаценте.

Рис. 3 Реакция, катализируемая стероидной сульфатазой. Активная форма в виде димера отщепляет сульфатную группу с получением DHEA - предшественника эстрогена.

Также можно уточнить локализацию: наибольшая экспрессия STS сосредоточена в телах синцитиотрофобласта. Это слой клеток трофобласта (часть плаценты), обеспечивающий непосредственный контакт с материнским организмом. Для этих клеток очень важна секреторная функция, что может объяснять высокую экспрессию STS в них. По-видимому, высокая потребность в эстрогене в данном органе может вытекать из обозначенной, но пока мало изученной ролью эстрогена в васкуляризации.

Рис. 4 РНК и белковая экспрессия стероидной сульфатазы

Два других белка — SUMF1, SUMF2 — участвуют в созревании некоторых сульфатаз, в частности STS. Их роль заключается в окислении цистеина из активного центра в 3-оксоаланин, что делает белки-мишени активными. Если сравнить уровни экспрессии данных белков можно заметить интересную закономерность (Рис.5): РНК экспрессия обоих белков есть во всех представленных тканях (что логично, так как у этих белков есть несколько разных мишеней), но экспрессия белка у них различается — там, где преобладает SUMF1 мало SUMF2 или он вообще отсутствует, наоборот то же верно. И вот именно в плаценте, где самая высокая экспрессия STS, высокая экспрессия SUMF2, а SUMF1 отсутствует, причём тоже в телах синцитиотрофобластов. Думаю, из этого следует, что в данной ткани эти белки работают совместно.

Рис. 5 Сравнение экспрессия SUMF1 (слева) и SUMF2 (справа)

Таким образом, мы посмотрели, как связаны гены из нашего списка, нашли группу связанных между собой и посмотрели их функции и экспрессию. Оказалось, что стероидная сульфатаза наиболее экспрессирована в плаценте, модифицирующие её факторы, SUMF1 и SUMF2, тканеспецифичны, и в плаценте работает именно SUMF2.