Базы данных GO, String, Human Protein Atlas
Для выполнения задания использовался следующий список генов: CA1, CA12, CA13, CA14, CA2, CA3, CA4, CA5A, CA5B, CA6, CA7, CA8, CA9, NAE1. Пока я если честно даже не знаю, что кодируют все эти гены, но надеюсь дальнейший анализ мне поможет это узнать :)
GO
В первую очередь я решила провести анализ в базе данных GO Enrichment Analysis. В анализе обогащения участвовало 15 ID, хотя файл содержал 14 ID. Один ID в импортируемом списке был посчитан за два гена (белок и его псевдоген). На картинке ниже показана выдача поиска.
String
Почему-то в результате поиска не было найдено статистически значимых результатов, поэтому я решила переехать в сервис String и изучить мои гены в нем, в первую очередь был получен граф (рис. 2). Видно, что для всех генов показано наличие 3D структур, также можно заметить, что выделяется два "подграфа", объединенных между собой.
На картинке гены CA5B и CA5A кластеризуются отдельно от общего графа, судя по аннотации они являются митохондриальными, а остальные цитоплазматическими, так что это вполне естественно. Ген NAE1 даже по названию как будто бы должен стоять отдельно от CA, неудивительно, что так и есть :). Но коли уж я полезла смотреть аннотации, то выяснила, что СА гены - гены карбоангидраз, катализирующих очень важную реакцию растворения СО2 до НСО3-, а ген NAE1 кодирует субъединицу белка, участвуающего в клеточном цикле. Любопытно, что CA8 является Carbonic anhydrase-related protein, а не карбоангидразой, возможно поэтому данный ген также ни с кем не соединен.
Все узлы графа связаны между собой следующими типами связей: from curated databases, gene co-occurrence, textmining, protein homology.
Далее я зашла на вкладку Анализ, чтобы посмотреть, показываются ли какие-нибудь категории GO и оказалось, что они есть, причем с хорошим FDR. Странно, что в GO Enrichment ничего не обогатилось...
GO категория с самым низким FDR (1.15e-29) - One-carbon metabolic process, что довольно очевидно для карбоангидразы :), вторая по рейтингу категория GO - Bicarbonate transport (FDR = 3.87e-26). Все остальные категории имеют уже FDR близкий к 0.05, не стану заострять на этом внимание.
Потом я решила посмотреть на коэкспрессию, где все довольно грустно. Для человека слабо представлена ко-экспрессия данных генов, отмечены всего 3 пересечения с слабым значением уверенности в связи. Для других организмов упоминания также слабо обоснованы, но они представлены в большем количестве. В заключение матрица не говорит о характерной совместной экспрессии каких-либо генов в выборке.(рис. 3)
Посмотрим на изображение cooccurrence. Только внутри клады Opisthokonta все белки являются довольно консервативными. По всей видимости, в других группах подобные функции выполняют другие белки. Самым консервативным у эукариот является ген NAE1, любопытно также отметить, что почти у половины представленных бактерий не встерчается ни один из генов.
Human Protein Atlas
На лекции очень рекламировали Human Protein Atlas для просмотра красивых картиночек - почему бы мне тоже не посмотреть? Будучи не особо креативной, я решила взять ген СА1 (тут ссылочка на HPA)
Прочитаем информацию из Summary про наш белок: " Карбоангидразы катализируют обратимую гидратацию диоксида углерода. Они участвуют в различных биологических процессах, включая дыхание, кальцификацию, кислотно-щелочной баланс, резорбцию костей и образование водянистой влаги, спинномозговой жидкости, слюны и желудочной кислоты. Ген CA1 тесно связан с генами CA2 и CA3 на хромосоме 8. Он кодирует цитозольный белок, который в больших количествах обнаружен в эритроцитах. Аллельные варианты этого гена были описаны в некоторых популяциях. Альтернативный сплайсинг и использование альтернативных промоторов приводят к появлению множества вариантов транскрипта."
Для начала посмотрим на тканевую специфичность нашего гена. Для CA1 наблюдается экспрессия белка в органах ЖКТ, лёгких, аппендиксе, селезёнке, костном мозге (рис. 4). Экспрессия РНК CA1 отличается от экспрессии белка наличием данных по мышечным тканям, крови и женской половой системе (рис. 5). Можно сказать, что в малых количествах экспрессия РНК CA1 присутствует в каждой системе органов.
Также есть данные о небольшой специфичности экспресии гена для коры больших полушарий мозга человека (рис. 7), а вот для свиньи и мышки никаких данных по мозгу нет. Данные о какой-либо субклеточной локализации отсутствуют :(
Надеюсь это было не очень скучно читать 🥺, я пыталась