Описание входных данных
Для анализа мне был предложен набор из 8 генов: HAL, AMDHD1, HDC, CARNS1, CARNMT1, UROC1, HNMT, FTCD.
HAL - Гистидин-аммиак-лиаза, превращает L-гистидин в урокановую кислоту и аммиак через неокислительное дезаминирование.
AMDHD1 - Домен аминогидролазы 1. Ген, кодирующий фермент, участвующий в катаболизме L-гистидина. AMDHD1 участвует в катаболизме L-гистидина до глутамата и формамида или формата. Этот процесс включает несколько стадий, на одной из которых AMDHD1 обеспечивает гидролиз имидазолоновой кислоты.
HDC - Гистидиндекарбоксилаза. катализирует превращение L-гистидина в гистамин.
CARNS1 - Карнозин-синтетаза. Катализирует синтез карнозина и гомокарнозина из β-аланина и L-гистидина.
CARNMT1 - N-метилтрансфераза карнозина 1. Катализирует превращение карнозина в ансерин путем специфического метилирования N1-позиции гистидина в карнозине.
UROC1 - Уроханатная гидратаза. Участвует во втором этапе катаболизма гистидина, преобразуя урохантовую кислоту в формиминоглутаминовую кислоту.
HNMT - N-Метилтрансфераза гистамина. Участвует в инактивации гистамина путем N-метилирования, используя S-аденозил-L-метионин.
FTCD - Формимидоилтрансфераза циклодеаминаза. Играет ключевую роль в метаболизме гистидина и фолата. Выполняет две функции: формиминотрансферазную и циклодеаминазную.
Таким образом, большинство генов - это гены человека, кодирующие ферменты, отвечающие за метаболизм гистидина.
STRING
STRING (Search Tool for the Retrieval of Interacting Genes/Proteins) — это биологическая база данных и веб-ресурс, предназначенный для изучения известных и предсказанных взаимодействий между белками. Помимо этого можно также получить данные по функциональному анализу обогащения и создавать и визуализировать сети взаимодействий.
Из рисунка видно, что наибольшее количество критериев связанности у генов HAL, UROC1, FTCD, AMDHD1. Некоторые из них могут сливаться в один ген, вместе экспрессироваться, располагаются рядом в геномах. Гены HNMT, HDC, CARNS1, CARNMT1 связаны между собой только тем, что они упоминаются вместе в аннотациях PubMed и ассоциированы в некоторых базах данных.
Также, воспользуемся широким функционалом STRING и посмотрим на биологические процессы, в которых участвуют белки и на молекулярные функции белков, годирующихся данными генами.
Всего выделяется 3 молекулярные функции: каталитическая активность, лиазная активность, аммиак-лиазная активность. И 7 биологических процессов, в которых участвуют кодирующиеся белки. Подробнее про биологические процессы указано на рисунке ниже.
Так как при поиске связанности генов оказалось, что многие из них экспрессируются вместе, мне стало интересно оценить визуализацию этих данных. Интересно, что коэкспрессия генов у людей и у других организмов практически не отличается, за исключением гена HAL, который у человека экспрессируется с HDC, UROC1, FTCD, AMDHD1, а у других организмов HDC заменяется на CARNS1. Это может происходит из-за различия механизмов регуляции экспрессии, альтернативного сплайсинга или различия в сигнальных путях экспрессии.
Информация, найденная при поиске в базе данных STRING, подтверждает, что все гены отвечают за метаболизм гистидина у человека и что они взаимосвязаны как локализацией, так и коэкспрессией.
Human Protein Atlas
Так как в Human Protein Atlas нет возможности сделать поиск по списку ID генов, был рассмотрен только ген HAL, так как он коэкспрессируется и располагается рядом с наибольшем количеством белков и так как он первый в списке).
Для начала общая информация о гене: помимо названия и структуры, можно так же узнать, что он экспрессирует белок, относящийся к 6 классам, существование и экспрессия доказаны на белковом уровне и что всего с гена получается 6 транскриптов.
Далее можно увидеть визуализации локализации экспрессии и обнаружения транскриптов гена. Экспрессируется HAL в клетках печени, а именно в цитозоли. А его продукты в основном локализованы в клетках кожи, легких, жировой ткани, лимфатических узлов, селезенки.
Интересно, что в таком количестве тканей ген имеет средний уровень экспресии. Низкий уровень наблюдается только в гипоталамусе и в хвостовидной доле, а в яичниках ген не экспрессируется вовсе.
Из Human Protein Atlas удалось вычленить информацию об экспрессии и локализации гена в различных клетках тканях. Можно также посмотреть взаимодействие гена с другими и его структуру, но эта информация обозначена менее наглядно, чем в других базах данных. Однако остальные иллюстрации в Human Protein Atlas очень наглядные и красивые.
Анализ обогащения терминами GO
Был проведен анализ на обогащение по биологической функции набора генов в базе данных GO по Homo sapiens. Параметры запроса включали использование точного теста Фишера для подсчёта p-value и поправки Бонферрони на множественное тестирование.
Bonferroni count: 8995
Полученные данные еще раз доказывают, что белки генов из набора участвуют в трех процессах:
1)Метаболизм карнозина
2)Катаболизм L-гистидина до глутамата и формиата
3)Катаболизм L-гистидина до глутамата и формамида
Лучшими находками по p-value оказались:
1)Метаболизм гистамина
2)Катаболический процесс
3)Метаболизм карнозина
Обогащение через PANTHER не имеет визуализации, удобной для восприятия. Поэтому было проведено обогащение через Enrichr. Результат на рисунке ниже.
Результаты оказались несколько иными:
1)Фолат-опосредованный одноуглеродный пул
2)Метаболизм бета-аланина
3)Метаболизм аргинина и пролина
Эти результаты кажутся более интересными, так как витамин B9 ранее при работе со списком генов не встречался, как и остальные 2 метаболических пути.
Так же в Enrichr была найдена удобная визуализация биологических процессов gene ontologies для данного набора генов.
Результаты полностью отличаются от полученных непосредственно через GO, однако судя по первичному анализу генов в начале практикума, GO имеет более точные данные.
Вывод
Анализ списка генов через базу данных STRING позволил понять взаимодействия белков. С помощью GO PANTHER и Enrichr были выявлены основные функции генов. Используя Human Protein Atlas, была выявленна локализация гена HAL и получена информация о его экспрессии.