Практикум 11. Gene Ontology

Предлагалось проаннотировать по Gene Ontology "list14" - список из 21 ID (отвечающий какой-то группе генов, белков или РНК).

Часть 1. GO Enrichment Analysis

На сайте GeneOntology ввели спсиок ID. Выдалась страница PANTHER DataBase. Тут проходил поиск наиболее вероятных GO для списка ID. Выбрали в качестве типа поправки на множественность гипотез FDR, для проверки достоверности - тест Фишера (ибо ID в списке не очень много).

Выдалось 48 возможных GO. Главным ограничителем этого количества стала множественная проверка: максимальный выданный p_adg был равен 0.0316. В анализе обогащения участвовали все 21 ID, но 3 из них были картированы множественно: MAGEA2 и MAGEA2B были картированы на один ген или семейство, EBP был картирован несколько раз (2 разных записи UniProt: Q5HYK7 и Q15125). 10 самых достоверных GO для наших ID:

1. sterol biosynthetic process (GO:0016126) p_adj=9.03E-38

2. cholesterol biosynthetic process (GO:0006695) p_adj=7.21E-36

3. secondary alcohol biosynthetic process (GO:1902653) p_adj=1.24E-35

4. steroid biosynthetic process (GO:0006694) p_adj=8.53E-32

5. sterol metabolic process (GO:0016125) p_adj=1.23E-31

6. alcohol biosynthetic process (GO:0046165) p_adj=5.00E-30

7. organic hydroxy compound biosynthetic process (GO:1901617) p_adj=1.15E-29

8. cholesterol metabolic process (GO:0008203) p_adj=1.18E-29

9. secondary alcohol metabolic process (GO:1902652) p_adj=3.75E-29

10. steroid metabolic process (GO:0008202) p_adj=1.87E-27

5 самых достоверных GO были проиллюстрированы еа графе, полученном в QuickGO.

По рисунку понятно, что самые достоверные GO тем или иным образом связаны с биосинтезом холестерина, значит можно предположить, что список ID характерен как раз для участников этого процесса.

Часть 2. String DataBase

В StringDB можно проаннотировать продукты генов. Мы вставили список ID и проверили, что все продукты находятся корректно и однозначно. Выдался граф из возможных взаимодействий между белками. 3D структура нашлась для всех, кроме EBP. Мы отобразили больше взаимодействий, чем выдалось по умолчанию, чтобы отобразились связи всех категорий (несколько раз нажали MORE):

Видно, что в нашем графе образовалось две группы: основная и маленькая из двух белков семейства MAGEA2 (Melanoma-associated antigen 2), не связанного с метаболизмом стероидов.

Собственно возможные взаимодействия между белками:

Много связей основаны лишь на текстовом анализе (textmining), но среди них много связей, основанных на коэкспрессии белков и даже экспериментально подтвержденных взаимодействий. В том или ином виде представлены все типы достоверности взаимодействий.

Тут же посмотрели представленность генов у разных организмов. Оказалось, что полный набор генов представлен почти во всех группах вторичноротых (кроме туникат, шпорцевой лягушки и почему-то утконоса). Особенно часто все гены из набора встречаются у плацентарных.

Далее посмотрели коэкспрессию генов в человеке и в других организмах. Для этих генов у других организмов гораздо больше данных о коэкспрессии, чем для человека: для человека есть 5 довольно сильных связей коэкспрессии: FDFT1 и CYP51A1; HMGCS1 и (MSMO1, SQLE или FAXDC2); MAGEA2 и MAGEA2B (именно эта коэкспрессия для других организмов не показана - для них нет данных о экспрессии этих двух генов). Есть данные о коэкспрессии других генов в человеке, но эта коэкспрессия горазд слабее, чем для других организмов.

Часть 3. Protein Atlas

1. Предлагалось изучить какой-нибудь ID из списка средствами Protein Atlas. Мы выбрали ID EBP (Emopamil binding protein (sterol isomerase)).

2. Описание ID (Gene Summary) взято из RefSeq: это интегральный мембранный белок эндоплазматического ретикулума. Он похож на сигма-рецепторы и может быть членом суперсемейства хорошо связывающих лекарственные препараты белков в ЭПР разных тканей. По структуре EBP похож и на бактериальные, и на эукариотические белки, транспортирующие лекарственные вещества. У белка, возможно, есть четыре трансмембранных фрагмента. Два консервированных остатка глутамата могут участвовать в транспорте катионных амфифильных молекул. Важно, что в EBP очень высокое содержание ароматических аминокислотных остатков (>23%) в трансмембранных сегментах. Возможно, они участвуют в транспорте лекарственного средства с помощью Р-гликопротеина. Нарушения в гене EBP связаны с точечной хондродисплазией - синдромом Кондрати-Хундерманна (CDPX2).

3. EBP неспецифичен для участков мозга.

4. EBP локализован в ЭПР.

5. Есть ткани, в которых идет экспрессия гена (данные RNA-seq), но нет белка совсем (легкие, пожделудочная железа, кровь, кожа и т.д.). В печени самый высокий уровень экспрессии этого гена, но уровень белка средний, такой же, как в разных органах пищеварительной системы (в гландулярных клетках) и надпочечниках (гландулярные клетки). Интересно, что самое высокое содержание белка при весьма скромной экспрессии гена наблюдается в семенниках (клетки Лейдига).

6. Если судить по РНК, самая высокая экспрессия EBP происходит в печени, тонком кишечнике, надпочечниках и Т-клетках крови.