Обзор:
В ходе этого практикума был проанализрован
доставшийся мне набор генов человека (11 штук) с использованием
баз данных GO и STRING.
1. GO-анализ
База данных GO представляет собой
граф биологических терминов,
соединенных различными отношениями.
На основе предоставленных генов был проведен GO-анализ (при помощи PANTHER).
Онтология: biological process
Использовался точный тест Фишера и поправка Бонферрони на
множественные сравнения.
Цель - обнаружить повышенную представленность каких-то характеристик (в данном случае принадлежность
к определенным биологическим процессам) в данном наборе генов по сравнению со средним по всем генам организма.
В результате было получено обогащение терминами (Рис. 1.)
Рис. 1. Результаты анализа обогащения терминами GO (участие в биологических процессах),
14 лучших находок. Использовался точный тест Фишера и поправка Бонферрони на множественные сравнения.
Находки отсортированы по значениям P-value.
Анализ обогащения (Рис. 1.) показал, что в моем наборе много генов,
связанных с метаболизмом коферментов и, возможно, каких-то других малых
молекул (например, кислот). Об этом свидетельствуют названия: "vitamin metabolic process",
"malonyl-CoA biosynthetic process", "biotin metabolic process", "small molecule metabolic process",
"monocarboxylic acid metabolic process" и др.
Таким образом можно предположить, что данные гены связаны каким-то общим метаболическим путем.
Вывод из GO-анализа: Проведенный GO-анализ статистически значимо показал, что исходный
набор генов состоит из генов участвующих в метаболических путях,
связанных с биосинтезом и превращением коферментов и малых молекул,
в частности монокарбоновых кислот. Это указывает на вероятное взаимодействие продуктов
данных генов в рамках общей биологической функции.
2. STRING
Для дополнительной иллюстрации отношений между белками (продуктами генов из
мего списка) я использовал сервис STRING.
STRING - это база данных и веб-ресурс для поиска информации об известных
и предсказанных белок-белковых взаимодействиях.
Рис. 2. STRING-граф, иллюстрирующий
взаимосвязи между целевыми белками, взятыми для анализа.
Пузырьками обозначены белки, а линиями связи между ними.
Видно, что все белки образовали один кластер (связный граф).
Полная легенда представлена ниже (Рис. 3. и Рис. 4.)
Для примера (демонстрирует, что я читал легенду):
голубые и фиолетовые линии означают что между данными белками
существуют известные взаимодействия, причем голубые демонстрируют тот факт,
что информация взята из курируемых баз данных, а фиолетовые - из экспериментов.
Обратимся к Рис. 2. Видим, что для всех представленных белков известны (или предсказаны)
3D-структуры.
Больше всего на графе линий, показывающих предсказанные взаимодействия
и textmissing (совместные упоминания в литературе), оно и понятно, ведь предсказать
взаимодействия проще чем экспериментально подтвердить их. Однако радует, что и
подтвержденных взаимодействий немало! Можно заключить, что эти белки действительно
участвуют в некотором одном метаболическом процессе.
Из вкладки "Analisis" можно узнать, что 9 из 11 анализируемых белков участвуют в
"Carboxylic acid metabolic process", а также в "Biotin metabolism, including IMDs".
Ещё, 9 из 11 связаны с митохондриями. Напоследок обратимся к Рис. 5. и взглянем на
коэкспрессию доставшихся мне генов.
Рис. 3. Легенда для STRING-графа, обозначения пузырей (белков)
Рис. 4. Легенда для STRING-графа, обозначения ребер графа
Рис. 5. Изображение, демонстрирующее коэкспрессию
анализируемых генов в человеке и других организмах.
Видно, что некоторые гены коэкспрессируются, что добавляет уверенности в том,
что они участвуют в одном метаболическом процессе.
Вывод по результатам поиска в STRING: Анализ в базе данных STRING
подтвердил гипотезу, выдвинутую на основе GO-анализа.
Белки образуют сеть взаимодействий со значительной долей
экспериментально подтвержденных данных.
Совпадение предсказанных STRING биологических функций
("Carboxylic acid metabolic process",
"Biotin metabolism") с результатами GO-анализа,
а также данные о коэкспрессии и митохондриальной локализации позволяют с уверенностью
предположить, что данный набор генов
кодирует функционально связанную группу белков,
участвующих в метаболизме биотина и карбоновых кислот в митохондриях.
Общий вывод: Комплексный биоинформатический анализ показал,
что предоставленный набор из 11 генов не является случайным.
Обогащение конкретными GO-терминами, а также наличие
предсказанных и подтвержденных белок-белковых взаимодействий свидетельствуют о том,
что эти гены кодируют белки, функционально связанные и участвующие в координированном выполнении
общей клеточной функции — (вероятно) метаболизма биотина и монокарбоновых кислот. Однако в идеале требуется
дальнейших анализ для уточнения и подтверждения моих выводов, уже с использованием дополнительных ресурсов,
таких как Human Protein Atlas.