О входных данных

Входные данные представляют собой набор белок кодирующих генов человека. Всего в списке представлено 22 гена. Данный набор генов доступен по ссылке.


База данных STRING - Search Tool for the Retrieval of Interacting Genes/Proteins

Это база данных, которая позволяет удобно визуализировать белок-белковые взаимоотношения. В этой базе данных представлено 59 миллионов белков из 12 тысяч организмов.

STRING рассчитывает оценку для каждой функциональной связи по различным типам доказательств. Это позволяет сделать схему взаимодействий более наглядной; известные и предсказанные взаимодействия, дополняя друг друга, расширяют сеть взаимодействий; оценка достоверности функциональной взаимосвязи зависит от количества типов доказательств.

Запуск программы

Рис. 1. Схема взаимосвязей данного набора белков по базе данных STRING.

Загрузил список генов, предварительно выбрав во вкладке организмов Homo sapiens. Минимальный требуемый балл взаимодействия оставил неизменным (т. е. medium confidence 0.400). Получилась схема (рис. 1), на которой видно обилие разного рода доказательств взаимоотношений между данными белками. Особенно много доказательств на текстовом уровне (отмечен желтым цветом) - программа производит статистически значимый поиск упоминаний белков в научных работах (из баз данных PubMed, SGD, OMIM, FLyBase и MEDLINE; также может использоваться Swiss-Prot) с использованием обработки естественного языка. Программа подчиняется алгоритму, который позволяет оценивать совместное упоминание белков интереса.

Рис. 2. Схема взаимосвзяей данного набора без учета textmining по базе данных STRING.

Гораздо интереснее взглянуть на схему взаимных отношений данных белков без учета упоминаний в тексте - разного рода экспериментальные данные, совместное появление, взаимное расположение в ДНК, онтология, на мой взгляд, более значимые доказательства взаимоотношений белков (не могу ручаться за то, что нашла программа, считывая статьи) - результат представлен на рисунке 2. Кроме того, текстовые доказательства сильно нагружают схему (рис. 1) - по итогу можно только сказать, что все белки, так или иначе, взаимосвязаны. Теперь на схеме можно чётко выделить крупный кластер взаимосвязанных 10 белков. 7 из них, расположенных в виде шестиугольника, судя по всему, являются ключевыми белками некоторого одного процесса или ряда очень близких; к ним примыкают еще 3 белка, которые связаны с основным кластером нестолько экспериментально, сколько через гомологию, ко-экспрессию и свидетельствам курируемых баз данных - число типов доказательств не велико.

Ещё выделяются 2 малые группы по 3-4 достоверно взаимосвязанных белка, но не связанных с крупным кластером никак (кроме текстовых упоминаний). Также выделяются две пары взаимосвязанных белков. Особняком стоит белок MMAB - на рисунке 1 можно заметить, что с остальными белками он взаимосвязан на текстовом уровне, ко-экспрессией и одним соседством в геноме (с MTR); много взаимосвязей построены по гомологичным белкам других организмов - вероятно, белок MMAB мало иследован в человеке.

Анализ обогащения терминами в базе данных STRING

Наиболее мне интересные результаты анализа представил ниже в виде рисунков 3-5. Результаты также доступны в формате tsv: анализ биологического процесса, анализ молекулярной функции, анализ клеточного компонента

Рис. 3. Визуальное представление анализа обогащения терминами биологических процессов в базе данных STRING.

Рис. 4. Визуальное представление анализа обогащения терминами молекулярных функций в базе данных STRING.

Рис. 5. Визуальное представление анализа обогащения терминами клеточных компонентов в базе данных STRING.

Анализ обогащения терминами показал, что большая часть белков из набора (по значениям уровня сигнала, FDR и количества белков):


База данных Human Protein Atlas

Программа, запущенная с целью составить карту всех белков человека в клетках, тканях и органах с помощью различных методик протеомики и транскриптомики (на основе масс-спектометрии), окрашивания с помощью антител и т. д.

Конкретно в данном случае меня интересует, специфичен ли белок MMAB по тканям.

Запуск программы

В поисковую строку ввёл MMAB (привлёкший внимание малым количеством доказательств взаимосвязей с другими белками в базе данных STRING). Перешел во вкладку "Tissue"; там представлена краткая информация: белок связан с метаболизмом витамина B12, РНК данного гена была детектирована во всех тканях человека, но в большей степени она представлена в печени. В табл. 1 можно наблюдать, что белок MMAB экспрессируется практически во всех органах и тканях, кроме шейки матки, гладкой мускулатуры, жировой ткани и костного мозга. Визуализация уровней экспрессии представлена на рис. 7.

Табл. 1. Уровни экспрессии по органам.
Рис. 7. Визуализация уровней экспрессии РНК и белка по тканям во всем организме. На рисунке видно, что экспрессия не специфична и представлена во всех органах и тканях, но наиболее высокий уровень экспрессии наблюдается в печени.

Таким образом выяснили, что белок MMAB практически не специфичен и отвечает за метаболизм витамина B12.