Базы данных


Входные данные

Для этого задания я получила набор из 35 генов. Если поверхностно посмотреть на список, вот что можно заметить:

В общем, здесь явно замешан НАД. Так что предполагаю, что гены из данного набора кодируют ферменты, участвующие в метаболизме НАД. В таком случае какая-то особая тканеспецифичность наблюдаться не должна

Gene Ontology, PANTHER

Первым делом я решила проанализировать набор генов в Gene Ontology. Ввела список из символов генов, для сравнения выбрала все гены человека. Я хоть и догадываюсь, в каком биологическом процессе участвуют белки, кодируемые данными генами, но на самом деле пока мне достоверно ничего про мой набор неизвестно. В качестве статистического теста поставила тест Фишера. Выдача в PANTHER.

Далее я заметила, что одного из 35 генов, как я думала, в выдаче нет.

results
Рис 1. Разница в количестве предложенных и обработанных ID и ID с двумя PANTHER ids

Оказалось, я не заметила, что один из генов на самом деле не ген, а локус на 2 хромосоме: NT5C1B-RDH14. В Genome Browser посмотрела, что это за локус. В этом локусе происходит естественная read-through транскрипция между соседними генами NT5C1B (5'-нуклеотидаза) и RDH14 (ретинолдегидрогеназа 14). Альтернативный сплайсинг приводит к образованию разных вариантов транскрипта, один из которых кодирует слитый белок. Так что локус в списке я заменила на названия двух этих белков: NT5C1B и RDH14

Но на этом неожиданности не закончились. Для одного ID нашлось два варианта. Это PNP. Для этого ID приведено два AC UniProt:

Пожалуй, первый белок нас не особо интересует, но, я думаю, с этим ничего не поделать, так что придётся просто смириться и помнить об этом.

Итоговая выдача в виде таблицы.

Анализ

Для начала убедилась в том, что для всех GO терминов гены в выборке перепредставлены, и p-value везде хорошее. Значит, можно спокойно анализировать.

В целом, GO термины относятся к процессам биосинтеза и катаболизма. Также некоторые термины относятся к переносу различных групп с белков: депропионилирование, десукцинилирование, демалонилирование, деглутарилирование, деацетилирование. Ещё меня удивило наличие терминов, относящихся к формированию гетерохроматина.

Аллантоин является продуктом катаболизма пуринов, так что эти процессы должны быть связаны.

Подтвердилась моя изначальная догадка о том, что гены из моего набора участвуют в синтезе НАДФ. Дальше посмотрим в других базах.

STRING
colored
Рис 2. Граф взаимодействий. Разными цветами связей показаны типы доказательства взаимодействия
thickness
Рис 3. Толщина линий указывает на силу поддержки данных. Я подумала, что так граф воспринимать проще. Хотя не очень-то помогло
Анализ

Сразу бросается в глаза, что есть две изолированные вершины. Одна из них – тот самый ген, который был в локусе, так что это неудивительно. А вот вторая вершина меня заинтересовала. Посмотрим в NCBI Genes, что это за ген:

ASPDH. Из описания следует, что предполагается, что это ген кодирует белок, который принимает участие в биосинтезе НАДФ. Казалось бы, почему тогда он не связан с другими генами? Честно говоря, я так и не поняла, как ответить на этот вопрос. Вообще, вроде, точная функция этого белка не известна, и это только предполгаемая функция. Может, причина в этом... Но это, конечно, какое-то очень странное объяснение, так что с уверенностью назвать причину не могу.

Также из графа видно, что для всех генов известна 3D структура продукта.

Далее посмотрела, какие белки образуют комплексы друг с другом. Для этого в настройках для Network type установила 'physical subnetwork':

complexes
Рис 4. Граф, показывающий, какие белки собираются в комплексы

Итак, получается, образуется 6 комплексов. Вообще, ожидаемо, что белки SIRT, NT5 и NMRK образуют комплексы.

Можно теперь попробовать кластеризовать гены:

colored
Рис 5. 3 кластера по центроиду
thickness
Рис 6. 5 кластеров по центроиду

При выборе количества кластеров больше двух NADK всегда выделяется один в отдельный кластер. А при количестве болше 4 высегда выделяются 4 белка из комлекса NT5.

Далее в разделе Analysis посмотрела на биологические процессы GO:

Некоторые из локальных кластеров STRING:

complexes
Рис 7. Совместная встречаемость. Кажется, ничего супер интересного
Human Protein Atlas

Так как в Protein Atlas можно смотреть только на экспрессию отдельных белков, посмотрю на экспрессию NADK, который выделялся в отельный кластер, и сравню с экспрессией NADK2.

protein
Рис 8. Экспрессия белка NADK
thickness
Рис 9. Экспрессия белка NADK2
protein
Рис 10. Экспрессия РНК NADK
thickness
Рис 11. Экспрессия РНК NADK2

Экспрессия белка для обоих генов повышена в почках и желудке. Для NADK2 также повышена в мозжечке, паращитовидной железе, печени и яичниках. По экспрессии РНК для обоих генов на первом месте печень, но для NADK2 тканечпецифичность видна ну очень явно.

Просматривая различную информацию об этих генах, вот что ещё интересное нашла:

protein
Рис 12. NADK в клетке
thickness
Рис 13. NADK2 в клетке

NADK обнаружен в нуклеоплазме и цитозоле, а NADK2 – в митохондриях.

Reactome

Reactome предлагает следующие процессы:

all
metabolism
vitamins
Рис 14. Процесс 1: метаболизм витаминов и кофакторов, в особенности водорастворимых
nad
Рис 15. Процесс 2: утилизация никотинамида
organelles
Рис 16. Процесс 3: биогенез и поддержание органелл, в частности, транскрипционная активация биогенеза митохондрий
ribavirin
Рис 17. Процесс 4: всасывание, распределение, метаболизм и выведение Рибаварина
foxo
Рис 18. Процесс 5: регуляция транскрипционной активности транскрипционного фактора FOXO путём ацетилирования
nucleotides
catabolism
Рис 19. Процесс 6: метаболизм нуклеотидов, в особенности катаболизм – катаболизм пиримидинов
KEGG

Я посмотрела в Enrichr обогащение моего набора по данным о метаболических путях из KEGG. Наибольшее число генов принимает участие в метаболическом пути Nicotinate and nicotinamide metabolism. Нашла его в KEGG и выделила коды, которые соответствую генам из списка:

KEGGmap
Рис 20. Nicotinate and nicotinamide metabolism
Выводы

GO мне показалась очень удобной и понятной для стоявшей перевдо мной задачей базой данных. В STRING больше всего понравилось, что можно посмотреть, какие белки собираются в комплекс, и сразу наглядно видно, какие белки не имеют никаких взаимодействий с другими. Также в разделе Analysis много полезной информации. Human Protein Atlas мне доводилось использовать ранее, это удобная база данных для изучения информации о конкретном белке, особенно когда нужно посмотреть тканеспецифичность. Для набора генов она, конечно, мало чем может быть полезна. Reactome было сложновато пользоваться, но в целом она хороша. В Enrichr тоже всё довольно понятно и информативно.

В итоге моя догадка про биосинтез НАД подтвердилась. Если всё обобщить, получается что мой набор генов в основном участвует в следующих процессах:

thanks