В этом практикуме мы должны были познакомиться с разнообразными базами данных, обобщающими биологическую информацию.
Для этого нам был выдан следующий набор кратких названий человеческих генов (DNA, RNA или белков, в зависимости от базы):
ACER1, ACER2, ACER3, ALB, APOA1, APOB, APOC1, APOC2, APOC3, APOE, F2,
FGA, GYG1, GYG2, NDUFAB1, PLG, SERPINA1, SERPINA3, TFRC, TXN, TXN2
. Стоит оговориться, что я перепутал номер и случайно выполнил задание по другому набору генов.
GO Enrichment Analysis
1. Список генов в виде файла можно найти здесь.
Начнём с базы Gene Ontology. Загрузим туда наш список генов и запустим поиск.
Нас перебросило на сервис Panther. В нём мы выбрали следующие настройки поиска:
Annotation Data Set: GO biological process complete
Test Type: Fisher's Exact (точный тест Фишера)
Correction: Calculate False Discovery Rate (коррекция по ложноположительным находкам)
2. Не все ID из нашего списка участвовают в анализе обогащения. Это происходит из-за возможного несоответствия ID между
различными базами данных. В нашем случае участвует 21 ген из 23. Находки отсортировали по FDR (false discovery rate) так, чтобы на верху остались наиболее
значимые находки. 3.
Выдачу GO Terms выкачали в виде таблицы. Посчитаем число строчек с помощью wc -l: находок получилось 253.
Именно столько GO terms имеют FDR меньше, чем 0,05. 4.
Выпишем 10 самых значимых находок:
protein-containing complex remodeling
protein-lipid complex remodeling
plasma lipoprotein particle remodeling
high-density lipoprotein particle remodeling
plasma lipoprotein particle organization
protein-lipid complex subunit organization
chylomicron remnant clearance
cholesterol efflux
triglyceride-rich lipoprotein particle clearance
plasma lipoprotein particle assembly
5.
Первые 5 из них находок визуализируем с помощью сервиса QuickGO,
а именно GO:0034367, GO:0034368, GO:0034369, GO:0034375, GO:0071827.
6. Почти все узлы полученного графа соединены между собой отношениями типа 'is a', однако есть один представитель 'part of' и один 'regulates'
Видно, что топ-5 значимых находок соединены непосредственно через 'is a' и составляют некоторую иерархическую структуру.
7. Исходя из GO terms, которые попались нам в находках, видно, что почти все они так или иначе связаны с метаболизмом липидов, а чаще, с образованием липопротеинов.
String
Изучим список наших генов в другой базе данных - String. Наши ID будем рассматривать как белки. 1. Представим гены в виде графа.
2. Наличие 3D-структур указано для 8 из 21 узла графа.
3.Сами же узлы связаны между собой следующими типами взаимодействий:
Textmining
Experiments
Databases
Co‑expression
А эти типы взаимодействий совсем не представлены, даже при многократном поиске с помощью more.
Neighborhood
Gene Fusion
Co‑occurrence
4. Только внутри клады Opisthokonta все белки являются довольно консервативными. По всей видимости, в других группах подобные функции выполняют другие белки.
Самым консервативным является гень TXN (тиоредоксин - маленький сигнальный пептид, характерный почти для всех организмов), а вот наименее консервативными являются
гены APOB, APOC1, APOC2, (аполипопротеин B, C1, C2).
5. Рассмотрим также совместную экспрессию генов, основанную на данных секвенирования RNA.
В различных животных коэкспрессируются APOC2 и APOA1 (аполипопротеины A1 и С2), FGA
(альфа-спираль фибриногена) и PLG (плазминоген, принимающий
участие в фибринолизе). Остальные коэкспрессируются менее значимо. У людей коэкспрессируется значительно больше генов. Приведём лишь некоторые из них:
APOC3 с APOA1, APOC1; F2 с APOC3, APOB, FGA, ALB.
Human Protein Atlas
И последняя на сегодня база данных - Human Protein Atlas. 1.
Для рассмотрения мы выбрали один белок - SERPINA1 (Ингибитор альфа 1-протеиназы). 2. Почитаем его описание в Gene summary:
The protein encoded by this gene is secreted and is a serine protease inhibitor whose targets include elastase, plasmin, thrombin, trypsin, chymotrypsin, and plasminogen activator.
Defects in this gene can cause emphysema or liver disease. Several transcript variants encoding the same protein have been found for this gene.
Здесь говорится о том, что продукт данного гена секретируется вне клетки и является ингибитором сериновой протеазы. Повреждения в этом гене могут вызывать, например,
заболевания печени. 3. Интересно, что данный белок является специфичным для мозжечка (cerebellum) у свиньи, но проявляет низкую специфичность в мозге человека.
4.Информация из summary о секреции белка наружу подтверждается и иллюстрацией на вкладке Cell.
5. У рассматриваемого нами гена известен уровнь экспрессии только на уровне RNA. По всей видимости, других методов, кроме RNA-seq, по отношении к нему
не применялось. Видим, что ген сильно экспрессируется в печени и еще чуть-чуть в крови.
6. Если посмотреть детальнее, то увидим, что наш ген экспрессируется в печени и некоторых клетках крови (гранулоцитах и моноцитах)