Для выполнения этого практикума я проанализировал выданный мне список из 31 ID генов человека. Я проводил анализ обогащения терминами и анализ ортологов.
Анализ обогащения терминами показывает, насколько чаще наши гены попадают в ту или иную категорию, чем гены из случайного списка. Для него я использовал STRING - базу данных о белок-белковых взаимодействиях. С ее помощью можно узнать, какие гены из нашего списка принадлежат к одному семейству, какие гены коэкспрессируются, какие из соответствующих им белков вместе выделяются, какие из них относятся к одним и тем же комплексам, метаболическим путям, сигнальным путям и т.д., а также какие гены или белки часто упоминаются в одних и тех же публикациях. Я анализировал принадлежность генов к кластерам, соответствующим метаболическим путям.
Параметры анализа: метод STRING, близкий к GSEA; поправка на множественное тестирование FDR. Кроме FDR программа вычислила следующие параметры: strength и signal. Strength = lg(observed/expected), где observed - количество генов из моего списка в кластере, а expected - количество генов из случайного набора в этом кластере. Signal - среднее гармоническое взвешенное параметров Strength и -lg(FDR). Параметр Signal необходим, потому что FDR преувеличивает значимость больших кластеров, включающих в себя много генов из списка (например, CL:28759), а Strength - маленьких, почти полностью состоящих из генов нашего списка (например, CL:28775).
| Cluster | Description | Count in Network | Strength | Signal | False discovery rate |
| CL:28767 | HS-GAG biosynthesis, and Heparanase activity | 24 of 32 | 2.68 | 18.22 | 2.69e-54 |
| CL:28765 | Heparan sulfate/heparin (HS-GAG) metabolism, and Glycosaminoglycan biosynthesis -cchondroitin sulfate / dermatan sulfate | 25 of 64 | 2.39 | 15.25 | 9.14e-52 |
| CL:28769 | HS-GAG biosynthesis | 17 of 20 | 2.73 | 13.52 | 6.55e-38 |
| CL:28759 | Glycosaminoglycan metabolism, and Sulfotransferase activity | 26 of 118 | 2.15 | 12.25 | 3.22e-49 |
| CL:28772 | HS-GAG biosynthesis | 14 of 15 | 2.77 | 11.32 | 5.46e-31 |
| CL:28775 | Heparan sulfate proteoglycan biosynthetic process, polysaccharide chain biosynthetic process, and Heparan sulfate 6-O-Sulfotransferase activity | 7 of 7 | 2.8 | 5.43 | 1.48e-14 |
| CL:28816 | Syndecan, and Histone H3-T6 phosphorylation | 4 of 6 | 2.63 | 2.56 | 3.66e-07 |
Таблица отсортирована по столбцу Signal. В выдаче оказалось 7 кластеров, из них 5 включают в себя больше половины генов из моего списка. 6 кластеров включают в себя белки, связанные с синтезом и метаболизмом гепарансульфата и гепарина.
Для анализа ортологов я выбрал ген гепарансульфат эпимеразы GLCE и GeneCards - базу данных, содержащую информацию о генах человека, их связях в геноме, их белках, доменах, функциях, локализации, реакциях с их участием, экспрессии генов, медицинском значении, гомологах, аллелях, мутациях и публикациях, упоминающих данные гены. Я воспользовался сервисом HCOP для предсказания ортологов (результат). Ортологи были обнаружены у 17 видов животных, как первичноротых (Drosopila, Caenorhabditis), так и вторичноротых (все остальные); также был проведен поиск ортологов у 2 видов грибов - Saccharomyces cerevisae и S. pombe, однако у них поиск не дал результатов. Исходя из этого, можно предположить, что ген GLCE присутствует у всех видов животных, однако не встречается за пределами этого царства.