Базы данных

Осознание баз данных: Начало

Все началось с того, что ночью я нашла переданных мне список 12 белков. Походило все на квест, так как непонятно что делать с этими данными. Но затем я увидела перечень баз данных и решила, что выбор это сложно. Пусть за меня базу данных выберет рандом. Пусть GO - 1, STRING - 2, Human Protein Atlas - 3, KEGG - 4, Reactome - 5, GeneCards - 6, Panther - 7. К сожелению, у меня не получилось сделать рандомайзер на своей страничке 😟. Мне выпало число 2, следовательно я буду работать с базой данных STRING.

STRING

На вход подается файл с ID белков. Затем выплыл запрос про интересующую меня кладу или организм. Так как я все же человек, а человек это млекопитающие, то выбрала я Mammals. Все двенадцать белков были найдены у человека, шимпанзе, орангутана и серой крысы. Обычно все смотрят именно на человека и его "ближайших родственников". А я посмотрю на крысу, они вседь очень милые.

Рис 1. Rattus Norvegicus

ID Название
ALPI Щелочная фосфатаза, кишечная
ALPL Щелочная фосфатаза,
тканенеспецифический изофермент
ALPP Щелочная фосфатаза, плацентарная
ALPPL2(ALPG) Щелочная фосфатаза, подобная ALPP
GCH1 Циклогидролаза 1
PCBD1 Птерин-4-альфа-карбиноламиндегидратаза
PCBD2 Кофактор димеризации ядерного фактора гепатоцитов 1 альфа
PTS 6-пирувоилтетрагидробиоптеринсинтаза
QDPR Дигидроптеридинредуктаза
SPR Сепиаптеринредуктаза
TPH1 Триптофан-5-монооксигеназа
TPH2 Триптофан-5-монооксигеназа

На выдаче был получен граф, содержащий значимо больше взаимодействий, чем случайный. В нём очень много рёбер, обозначающий текс-майнинг, что мешает анализу. Поэтому эти рёбра были убраны. Также можно понять, что ждя всех белков, которые кодируют эти гены существует 3D структура (что приятно).

Рис 2. STRING network, включающая текст-майнинг

Рис 3. STRING network без текст-майнинга

Также можно заметить, что гены как бы разделены на два кластера, связанных друг с другом взаимодействием SPR и PTS. Это не удивительно, так как оба участвуют в биосинтезе тетрагидробиоптерина , а также показано, что они гомологичны (лиловая линия).
Пусть первый кластер - гены, взаимодействующие с SPR. В нем все гены взаимодействуют со всеми и большенство из них эксперементально потверждено. Интересно посмотреть на пары TPH1/TPH2 и PCBD1/PCBD2. Показано что они гомологичны, а также гены перекрываются (синии линии).
Втрой кластер - гены, взаимодействующие с PTS. Там уже на так все красиво, но можно увидеть, что гены ALPI, ALPP, ALPG, являющиеся щелочными фосфотазами - гомологи и имеют перекрывающиеся участки (хотя это все основано на кукируемых баз данных (бирюзовый )). Странно, что ALPL, которая также является щелочной фосфотазой, не имеет никаких взыимодествий с другими фосфотазами.

Рис 4. Распространенность белков

Стало интересно посмотреть совместное появление генов. Не удивительно, что они все есть у Opisthokonta(человеческие же). Также оказалось, что у меня консервативные гены (неожиданно)

Рис 5. Схема совместной экспрессии

У крысы конечно все грустно, но вот в других организмах (в основном в бактериях) можно увидеть, что у некторых генов совместная экспрессия.