Практикум 7

Дан набор белков, попробую найти что-нибудь интересное в базах данных, вдруг что-то хорошее получится...

Как потом выяснилось, нужно везде указывать организм, иначе ни одна пограммаы работать не хочет, и предупреждает, что только так сможет посчитать раньше, чем наступит тепловая смерть вселенной достаточно быстро. Поэтому просто для удобства я решила везде указывать человека, так как для него много данных, и почему бы и нет.

  1. База данных Reactome
  2. Чтобы как-то первично понять, что вообще это за белки такие и что их объеднияет, решила "скормить" список ID Reactome. Эта база данных не только находит повышенную представленность разных категорий белков в списке, но и сама рисует красивые картинки, что удобно:

    Рис. 1 Выдача Reactome в виде диаграммы Вороного (на картинку можно тыкнуть, чтобы рассмотреть, она откроется в новой вкладке)

    Можно также импортировать данные в виде csv таблицы, их читать глазами не совсем удобно, поэтому я их просто импортировала в гугл-табличку. Если вдруг нужно, например, в скрипте использовать данные из выдачи, csv файл может быть очень полезен)

    В этой таблице находки отсортированы в порядке возрастания p-value и FDR, и у первых семи они вообще очень низкие. Эти группы, по сути, связаны с метаболизмом сфинголипиов. Из 49 белков в группы "метаболизм", "метаболизм липидов" и "метаболизм сфинголипидов" попали 48 белков, а один (PSAPL1) вообще почему-то не нашёлся. Можно заметить, что структура этих функциональных групп иерархическая, и самая маленькая группа из этих – "метаболизм сфинголипидов".

    Рис. 2 Участок диаграммы Вороного. Для удобства я добавила подписи, которые показывают, сколько ID белков нашлось в этой функциональной группе

  3. База данных STRING
  4. Может рисовать красивые графы, где вершины – это белки, а рёбра – те или иные взаимодействия между ними.

    Можно покопаться в параметрах и сделать так, чтобы отображались только физические контакты, что я и сделала, потому что так на графе хотя бы что-то видно:

    Выбор параметров в куче выпадающих менюшек иногда выглядит примерно так...
    Рис. 3 Граф, полученный при помощи STRING (тоже можно тыкнуть). Рёбра отражают записи из курируемых баз данных, экспериментальные данные и текстмайнинг. Что примечательно, здесь PSAPL1 есть (в самом низу), и даже существует не в вакууме, а взаимодействует с PSAP.

  5. База данных Human Protein Atlas
  6. Решила посмотреть на то, какую вообще информацию можно выудить из Human Protein Atlas на примере того же белка PSAPL1. Тут нельзя подавать сразу списки ID в качестве запроса в силу специфики данных, а делать 49 запросов мне не очень хочется.

    В выдаче можно найти информацию в том числе о функции белка: он может активировать лизосомальную деградацию сфинголипидов. Из-за этого странно, что в Reactome он не обнаружился вообще, хотя белок, по-видимому, неплохо изучен (evidence at protein level).

    Кроме того, в The Human Protein Atlas не указано никаких взаимодействий с другими белками, хотя STRING нарисовал взаимодействие, как минимум, с PSAP (и это он искал взаимодействия только внутри этой группы из 49 белков). Хотя в данном случае мне кажется, что взаимодействия между этими белками на самом деле может и не быть, потому что PSAPL так называется, потому что он PSAP-like (у них похожие последовательности), и по аналогии с PSAP (прозапозин – предшественник белков сапозинов A, B, C и D) предполагается, что PSAPL тоже является белком-предшественников сапозин A, B, C и D-подобных белков, на которые "разваливается" в результате протеолиза. Вероятно, те записи в курируемых базах данных указывали именно на сходство, потому что мне не очень понятно, зачем бы двум похожим белкам-предшественникам между собой взаимодействовать, хотя кто знает.

    The Human Protein Atlas отчасти известна благодаря тому, что она рисует красивые картинки, показывающие тканевую специфичность белка:

    Рис. 4 Схема, показывающая обнаружение белка PSAPL1 в различных тканях
    Рис. 5 Тканевая специфичность РНК белка PSAPL1 (tonsil – миндалина)

    Более подробно в тканевой специфичности я решила не разбираться, чтобы не лезть в дебри гистологии, но такая информация там тоже есть.

    Ещё интересным мне показалось, что можно найти, где именно в клетке располагается белок. В данном случае он был найден в цитоплазме, и, по-видимому, секретируется в межклеточное пространство.

    Рис. 6 Локализация белка PSAPL1 в клетке

    Выводы:

    Можно сказать, что все данные белки так или иначе связаны с метаболизмом сфинголипидов, и среди них есть группы, которые образуют физические комплексы друг с другом.

    Если делать из увиденного более общие выводы, на этом примере видно, что рассмотренные базы данных – это мощный инструмент для поиска информации, но они могут содержать ошибки и неточности, которые приводят к несостыковкам между данными; в одной базе данных может не быть той информации, которая представлена в другой, поэтому при анализе лучше обращаться более, чем к одной.

    Думаю, всё...

    Извините, пожалуйста, я тормоз.