Практикум 7
Дан набор белков, попробую найти что-нибудь интересное в базах данных, вдруг что-то хорошее получится...
Как потом выяснилось, нужно везде указывать организм, иначе ни одна пограммаы работать не хочет, и предупреждает, что только так сможет посчитать раньше, чем наступит тепловая смерть вселенной достаточно быстро. Поэтому просто для удобства я решила везде указывать человека, так как для него много данных, и почему бы и нет.
- База данных Reactome
- База данных STRING
- База данных Human Protein Atlas
Чтобы как-то первично понять, что вообще это за белки такие и что их объеднияет, решила "скормить" список ID Reactome. Эта база данных не только находит повышенную представленность разных категорий белков в списке, но и сама рисует красивые картинки, что удобно:
Можно также импортировать данные в виде csv таблицы, их читать глазами не совсем удобно, поэтому я их просто импортировала в гугл-табличку. Если вдруг нужно, например, в скрипте использовать данные из выдачи, csv файл может быть очень полезен)
В этой таблице находки отсортированы в порядке возрастания p-value и FDR, и у первых семи они вообще очень низкие. Эти группы, по сути, связаны с метаболизмом сфинголипиов. Из 49 белков в группы "метаболизм", "метаболизм липидов" и "метаболизм сфинголипидов" попали 48 белков, а один (PSAPL1) вообще почему-то не нашёлся. Можно заметить, что структура этих функциональных групп иерархическая, и самая маленькая группа из этих – "метаболизм сфинголипидов".
Может рисовать красивые графы, где вершины – это белки, а рёбра – те или иные взаимодействия между ними.
Можно покопаться в параметрах и сделать так, чтобы отображались только физические контакты, что я и сделала, потому что так на графе хотя бы что-то видно:
Решила посмотреть на то, какую вообще информацию можно выудить из Human Protein Atlas на примере того же белка PSAPL1. Тут нельзя подавать сразу списки ID в качестве запроса в силу специфики данных, а делать 49 запросов мне не очень хочется.
В выдаче можно найти информацию в том числе о функции белка: он может активировать лизосомальную деградацию сфинголипидов. Из-за этого странно, что в Reactome он не обнаружился вообще, хотя белок, по-видимому, неплохо изучен (evidence at protein level).
Кроме того, в The Human Protein Atlas не указано никаких взаимодействий с другими белками, хотя STRING нарисовал взаимодействие, как минимум, с PSAP (и это он искал взаимодействия только внутри этой группы из 49 белков). Хотя в данном случае мне кажется, что взаимодействия между этими белками на самом деле может и не быть, потому что PSAPL так называется, потому что он PSAP-like (у них похожие последовательности), и по аналогии с PSAP (прозапозин – предшественник белков сапозинов A, B, C и D) предполагается, что PSAPL тоже является белком-предшественников сапозин A, B, C и D-подобных белков, на которые "разваливается" в результате протеолиза. Вероятно, те записи в курируемых базах данных указывали именно на сходство, потому что мне не очень понятно, зачем бы двум похожим белкам-предшественникам между собой взаимодействовать, хотя кто знает.
The Human Protein Atlas отчасти известна благодаря тому, что она рисует красивые картинки, показывающие тканевую специфичность белка:
Более подробно в тканевой специфичности я решила не разбираться, чтобы не лезть в дебри гистологии, но такая информация там тоже есть.
Ещё интересным мне показалось, что можно найти, где именно в клетке располагается белок. В данном случае он был найден в цитоплазме, и, по-видимому, секретируется в межклеточное пространство.
Выводы:
Можно сказать, что все данные белки так или иначе связаны с метаболизмом сфинголипидов, и среди них есть группы, которые образуют физические комплексы друг с другом.
Если делать из увиденного более общие выводы, на этом примере видно, что рассмотренные базы данных – это мощный инструмент для поиска информации, но они могут содержать ошибки и неточности, которые приводят к несостыковкам между данными; в одной базе данных может не быть той информации, которая представлена в другой, поэтому при анализе лучше обращаться более, чем к одной.
Думаю, всё...
Извините, пожалуйста, я тормоз.