Базы данных. Gene Ontology


В этом практикуме мы должны были познакомиться с разнообразными базами данных, обобщающими биологическую информацию. Для этого нам был выдан следующий набор кратких названий человеческих генов (DNA, RNA или белков, в зависимости от базы): ACER1, ACER2, ACER3, ALB, APOA1, APOB, APOC1, APOC2, APOC3, APOE, F2, FGA, GYG1, GYG2, NDUFAB1, PLG, SERPINA1, SERPINA3, TFRC, TXN, TXN2 . Стоит оговориться, что я перепутал номер и случайно выполнил задание по другому набору генов.

GO Enrichment Analysis

1. Список генов в виде файла можно найти здесь. Начнём с базы Gene Ontology. Загрузим туда наш список генов и запустим поиск. Нас перебросило на сервис Panther. В нём мы выбрали следующие настройки поиска:
  • Annotation Data Set: GO biological process complete
  • Test Type: Fisher's Exact (точный тест Фишера)
  • Correction: Calculate False Discovery Rate (коррекция по ложноположительным находкам)
2. Не все ID из нашего списка участвовают в анализе обогащения. Это происходит из-за возможного несоответствия ID между различными базами данных. В нашем случае участвует 21 ген из 23. Находки отсортировали по FDR (false discovery rate) так, чтобы на верху остались наиболее значимые находки.
3. Выдачу GO Terms выкачали в виде таблицы. Посчитаем число строчек с помощью wc -l: находок получилось 253. Именно столько GO terms имеют FDR меньше, чем 0,05.
4. Выпишем 10 самых значимых находок:
  • protein-containing complex remodeling
  • protein-lipid complex remodeling
  • plasma lipoprotein particle remodeling
  • high-density lipoprotein particle remodeling
  • plasma lipoprotein particle organization
  • protein-lipid complex subunit organization
  • chylomicron remnant clearance
  • cholesterol efflux
  • triglyceride-rich lipoprotein particle clearance
  • plasma lipoprotein particle assembly
5. Первые 5 из них находок визуализируем с помощью сервиса QuickGO, а именно GO:0034367, GO:0034368, GO:0034369, GO:0034375, GO:0071827.
Рис. 1. Граф GO Terms
6. Почти все узлы полученного графа соединены между собой отношениями типа 'is a', однако есть один представитель 'part of' и один 'regulates' Видно, что топ-5 значимых находок соединены непосредственно через 'is a' и составляют некоторую иерархическую структуру.
7. Исходя из GO terms, которые попались нам в находках, видно, что почти все они так или иначе связаны с метаболизмом липидов, а чаще, с образованием липопротеинов.

String

Изучим список наших генов в другой базе данных - String. Наши ID будем рассматривать как белки.
1. Представим гены в виде графа.
Рис. 2. Граф String
2. Наличие 3D-структур указано для 8 из 21 узла графа. 3.Сами же узлы связаны между собой следующими типами взаимодействий:
  • Textmining
  • Experiments
  • Databases
  • Co‑expression
А эти типы взаимодействий совсем не представлены, даже при многократном поиске с помощью more.
  • Neighborhood
  • Gene Fusion
  • Co‑occurrence
4. Только внутри клады Opisthokonta все белки являются довольно консервативными. По всей видимости, в других группах подобные функции выполняют другие белки. Самым консервативным является гень TXN (тиоредоксин - маленький сигнальный пептид, характерный почти для всех организмов), а вот наименее консервативными являются гены APOB, APOC1, APOC2, (аполипопротеин B, C1, C2).
Рис. 3. Cooccrurrence
5. Рассмотрим также совместную экспрессию генов, основанную на данных секвенирования RNA. В различных животных коэкспрессируются APOC2 и APOA1 (аполипопротеины A1 и С2), FGA (альфа-спираль фибриногена) и PLG (плазминоген, принимающий участие в фибринолизе). Остальные коэкспрессируются менее значимо. У людей коэкспрессируется значительно больше генов. Приведём лишь некоторые из них: APOC3 с APOA1, APOC1; F2 с APOC3, APOB, FGA, ALB.
Рис. 4. Coexpression

Human Protein Atlas

И последняя на сегодня база данных - Human Protein Atlas.
1. Для рассмотрения мы выбрали один белок - SERPINA1 (Ингибитор альфа 1-протеиназы).
2. Почитаем его описание в Gene summary:
The protein encoded by this gene is secreted and is a serine protease inhibitor whose targets include elastase, plasmin, thrombin, trypsin, chymotrypsin, and plasminogen activator. Defects in this gene can cause emphysema or liver disease. Several transcript variants encoding the same protein have been found for this gene.
Здесь говорится о том, что продукт данного гена секретируется вне клетки и является ингибитором сериновой протеазы. Повреждения в этом гене могут вызывать, например, заболевания печени.
3. Интересно, что данный белок является специфичным для мозжечка (cerebellum) у свиньи, но проявляет низкую специфичность в мозге человека.
Рис. 5. Локализация белка в мозге
4.Информация из summary о секреции белка наружу подтверждается и иллюстрацией на вкладке Cell.
Рис. 6. Внутриклеточная локализация SERPINA1
5. У рассматриваемого нами гена известен уровнь экспрессии только на уровне RNA. По всей видимости, других методов, кроме RNA-seq, по отношении к нему не применялось. Видим, что ген сильно экспрессируется в печени и еще чуть-чуть в крови.
Рис. 7. Уровень экспрессии гена в разных тканях
6. Если посмотреть детальнее, то увидим, что наш ген экспрессируется в печени и некоторых клетках крови (гранулоцитах и моноцитах)
Рис. 8. Уровень экспрессии генов в разных типах клеток