Учебный сайт Орлова Артёма

Практикум 11. GO, String, Human Protein Atlas.

Список 14 ID генов: list33.txt

Задание 1. GO Enrichment Analysis

1. Проводился анализ ID генов с помощью сервиса Gene Ontology.
2. В анализе обогащения участвовало 15 ID, хотя файл содержал 14 ID. Один ID в импортируемом списке был посчитан за два гена (белок и его псевдоген).

Рис.1
Количество генов, участвовавших в анализе.

3. В выдаче оказалось 13 GO terms. Прочие находки имели False Discovery Rate больше 0.05 и не считаются значащими.
4. Десять самых значимых (Рис.2):

GO biological process, FDR
one-carbon metabolic process (GO:0006730), 5.41E-29
bicarbonate transport (GO:0015701), 1.00E-25
organic anion transport (GO:0015711), 1.17E-15
small molecule metabolic process (GO:0044281), 1.69E-09
organic substance transport (GO:0071702), 2.04E-06
anion transport (GO:0006820), 3.13E-06
ion transport (GO:0006811), 3.89E-05
transport (GO:0006810), 5.49E-03
establishment of localization (GO:0051234), 7.08E-03
cellular metabolic process (GO:0044237), 1.29E-02

Рис.2
Значимые находки GO terms.

5,6. Для 5 самых значимых находок был построен граф (ссылка на сервис), отображающий отношения между категориями генов (Рис.3). Найденные GO terms относятся к метаболическим процессам малых молекул и к транспорту органических веществ.

Рис.3
Граф с отношениями между GO terms. Находки выделены жёлтым цветом. Единственный тип отношений, отображаемый данным графом, - это включение в более старшую категорию.

7. Все ID списка объединяет крупная категория, биологические процессы, что говорит о выполнении одними и теми же белками из выборки непохожих функций (Рис.4).

Рис.4
13 находок GO terms.

Задание 2. String

1. Проводился анализ ID генов с помощью сервиса String.

Так как анализ String оказался малоинформативным (Рис.5), для этого задания была взята другая выборка генов (15 ID list34.txt - Рис.6).

Рис.5
Изображение String на исходной выборке генов с трёхкратным расширением отображаемых генов. В синей рамке показан граф String без добавления генов.

Рис.6
Изображение String на новой выборке генов. Показана легенда взаимодействий между генами.

2. Все узлы заполнены 3D-моделью, т.е. для всех 15 генов показаны известные или предсказанные структуры белков.

3. Узлы графа связаны практически всеми типами взаимодействий. Наиболее часто встречются связи генов по textminding (упоминание вместе в статье) и по упоминанию о взаимодействии в базе данных. Например, для генов COASY и PANK1 показано 4 взаимодействия: textminding, экспериментально определённое взаимодействие, упоминание взаимодействия в БД и ко-экспрессия.

4. Было получено изображение cooccurrence (Рис.7). Наиболее консервативен белок гена GCDH: результат показывает встречаемость гена у эукариот, эубактерий и архей. Можно предполагать, что этот белок был у LUCA. Есть также белок гена SYCE2, который не показывает встречаемость вне опистоконт. В целом, набор генов в основном характерен для эукариот, некоторые могут встречаться у эубактерий и архей.

Рис.7
Gene cooccurrence для крупных таксонов.

5. Было получено изображение совместной экспрессии генов (Рис.8). Для человека слабо представлена ко-экспрессия данных генов, отмечены всего 3 пересечения с слабым значением уверенности в связи. Для других организмов упоминания также слабо обоснованы, но они представлены в большем количестве. В заключение матрица не говорит о характерной совместной экспрессии каких-либо генов в выборке.

Рис.8
Gene coexpression.

Задание 3. Human Protein Atlas

1. Проводился анализ гена с помощью сервиса Human Protein Atlas. Для анализа был выбран ген CA1 (Карбоангидраза 1) - страница в HPA.

2. Карбоангидразы катализируют обратимую гидратацию диоксида углерода. Они участвуют в различных биологических процессах, включая дыхание, кальцификацию, кислотно-щелочной баланс, резорбцию костей и образование водянистой влаги, спинномозговой жидкости, слюны и желудочной кислоты. Ген CA1 тесно связан с генами CA2 и CA3 на хромосоме 8. Он кодирует цитозольный белок, который в больших количествах обнаружен в эритроцитах. Аллельные варианты этого гена были описаны в некоторых популяциях. Альтернативный сплайсинг и использование альтернативных промоторов приводят к появлению множества вариантов транскрипта.

4. Нет данных о специфичности экспресии гена для какого-либо учатка мозга у человека и свиньи. Известно, что наблюдается небольшая специфичность для мозолистого тела мыши (Рис. 9).

Рис.9
Brain atlas для гена CA1. Есть специфичность в мозолистом теле мозга мыши.

5. Отсутствуют данные о специфической субклеточной локализации CA1.

6,7. Для CA1 наблюдается экспрессия белка в органах ЖКТ, лёгких, аппендиксе, селезёнке, костном мозге (Рис. 10). Экспрессия РНК CA1 отличается от экспрессии белка наличием данных по мышечным тканям, крови и женской половой системе (Рис. 11). Можно сказать, что в малых количествах экспрессия РНК CA1 присутствует в каждой системе органов.

Рис.10
Экспрессия белка в органах человека.

Рис.11
Экспрессия РНК в органах человека.