Учебный сайт Ивана Федорова


Практикум 6

Для выполнения этого практикума я проанализировал выданный мне список из 31 ID генов человека. Я проводил анализ обогащения терминами и анализ ортологов.

1.

Анализ обогащения терминами показывает, насколько чаще наши гены попадают в ту или иную категорию, чем гены из случайного списка. Для него я использовал STRING - базу данных о белок-белковых взаимодействиях. С ее помощью можно узнать, какие гены из нашего списка принадлежат к одному семейству, какие гены коэкспрессируются, какие из соответствующих им белков вместе выделяются, какие из них относятся к одним и тем же комплексам, метаболическим путям, сигнальным путям и т.д., а также какие гены или белки часто упоминаются в одних и тех же публикациях. Я анализировал принадлежность генов к кластерам, соответствующим метаболическим путям.

Параметры анализа: метод STRING, близкий к GSEA; поправка на множественное тестирование FDR. Кроме FDR программа вычислила следующие параметры: strength и signal. Strength = lg(observed/expected), где observed - количество генов из моего списка в кластере, а expected - количество генов из случайного набора в этом кластере. Signal - среднее гармоническое взвешенное параметров Strength и -lg(FDR). Параметр Signal необходим, потому что FDR преувеличивает значимость больших кластеров, включающих в себя много генов из списка (например, CL:28759), а Strength - маленьких, почти полностью состоящих из генов нашего списка (например, CL:28775).

ClusterDescriptionCount in NetworkStrengthSignalFalse discovery rate
CL:28767HS-GAG biosynthesis, and Heparanase activity24 of 322.6818.222.69e-54
CL:28765Heparan sulfate/heparin (HS-GAG) metabolism, and Glycosaminoglycan biosynthesis -cchondroitin sulfate / dermatan sulfate25 of 642.3915.259.14e-52
CL:28769HS-GAG biosynthesis17 of 202.7313.526.55e-38
CL:28759Glycosaminoglycan metabolism, and Sulfotransferase activity26 of 1182.1512.253.22e-49
CL:28772HS-GAG biosynthesis14 of 152.7711.325.46e-31
CL:28775Heparan sulfate proteoglycan biosynthetic process, polysaccharide chain biosynthetic process, and Heparan sulfate 6-O-Sulfotransferase activity7 of 72.85.431.48e-14
CL:28816Syndecan, and Histone H3-T6 phosphorylation4 of 62.632.563.66e-07

Таблица отсортирована по столбцу Signal. В выдаче оказалось 7 кластеров, из них 5 включают в себя больше половины генов из моего списка. 6 кластеров включают в себя белки, связанные с синтезом и метаболизмом гепарансульфата и гепарина.

2.

Для анализа ортологов я выбрал ген гепарансульфат эпимеразы GLCE и GeneCards - базу данных, содержащую информацию о генах человека, их связях в геноме, их белках, доменах, функциях, локализации, реакциях с их участием, экспрессии генов, медицинском значении, гомологах, аллелях, мутациях и публикациях, упоминающих данные гены. Я воспользовался сервисом HCOP для предсказания ортологов (результат). Ортологи были обнаружены у 17 видов животных, как первичноротых (Drosopila, Caenorhabditis), так и вторичноротых (все остальные); также был проведен поиск ортологов у 2 видов грибов - Saccharomyces cerevisae и S. pombe, однако у них поиск не дал результатов. Исходя из этого, можно предположить, что ген GLCE присутствует у всех видов животных, однако не встречается за пределами этого царства.