Анализ списка ID производился в базе STRING.
При запросе был выбран поиск multiple proteins, а организмом стал человек. Для каждого белка известна (или предсказана) структура. Видно, что белки достаточно сильно "связаны" друг с другом. Однако UEVLD и LDHAL6B не имеют ни одной связи ни с одним из белков. Данная сеть имеет больше взаимодействий, нежели ожидалось (p-value < 1.0e-16). Это означает, что скорее всего белки действительно связаны между собой.
Для проверки наличия ассоциации между белками воспользуемся таблицей с аннотациями к белкам. По этим данным было построено облако слов.
Наиболее популярными словами являются CoA, дегидрогеназа, митохондриальный, Acyl CoA. Вероятно, полученный набор белков работает с карбоксильными группами, обладает окислительно-восстановительными свойствами, а также учавствует в метаболизме жирных кислот. Это подтверждается ссылкой STRING на базу GO.
Далее сеть была преобразована в таблицу и выгружена в питон. Важно отметить, что в таблице грани присутвуют парами: как от узала A к B, так и от B к A. Так что всего в сети присутствует 45 граней.
import pandas as pd
from ipywidgets import interact
import matplotlib.pyplot as plt
data = pd.read_csv('string_interactions.tsv', sep = '\t')
data.head()
node1 | node2 | node1_string_id | node2_string_id | neighborhood_on_chromosome | gene_fusion | phylogenetic_cooccurrence | homology | coexpression | experimentally_determined_interaction | database_annotated | automated_textmining | combined_score | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | AACS | BDH2 | 9606.ENSP00000324842 | 9606.ENSP00000296424 | 0.000 | 0 | 0.0 | 0.0 | 0.062 | 0.0 | 0.9 | 0.136 | 0.911 |
1 | AACS | HMGCS1 | 9606.ENSP00000324842 | 9606.ENSP00000322706 | 0.000 | 0 | 0.0 | 0.0 | 0.145 | 0.0 | 0.9 | 0.511 | 0.954 |
2 | AACS | PHGDH | 9606.ENSP00000324842 | 9606.ENSP00000358417 | 0.000 | 0 | 0.0 | 0.0 | 0.000 | 0.0 | 0.0 | 0.405 | 0.405 |
3 | AACS | ACADM | 9606.ENSP00000324842 | 9606.ENSP00000359871 | 0.000 | 0 | 0.0 | 0.0 | 0.066 | 0.0 | 0.0 | 0.661 | 0.669 |
4 | AACS | ACAT2 | 9606.ENSP00000324842 | 9606.ENSP00000356015 | 0.054 | 0 | 0.0 | 0.0 | 0.109 | 0.0 | 0.9 | 0.360 | 0.938 |
data.info()
<class 'pandas.core.frame.DataFrame'> RangeIndex: 90 entries, 0 to 89 Data columns (total 13 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 node1 90 non-null object 1 node2 90 non-null object 2 node1_string_id 90 non-null object 3 node2_string_id 90 non-null object 4 neighborhood_on_chromosome 90 non-null float64 5 gene_fusion 90 non-null int64 6 phylogenetic_cooccurrence 90 non-null float64 7 homology 90 non-null float64 8 coexpression 90 non-null float64 9 experimentally_determined_interaction 90 non-null float64 10 database_annotated 90 non-null float64 11 automated_textmining 90 non-null float64 12 combined_score 90 non-null float64 dtypes: float64(8), int64(1), object(4) memory usage: 9.3+ KB
neighborhood_on_chromosome - соседство на хромосоме.
gene_fusion - слияние генов.
phylogenetic_cooccurrence - филогенетическое родство.
homology - гомология.
coexpression - совместная экспрессия.
experimentally_determined_interaction - экспериментальные доказательства взаимодействия.
database_annotated - ассоциации по базам данных.
automated_textmining - совместное появление белков абстрактах статей.
combined_score - общая оценка взаимодействия
def plotter(column):
return data[column].hist(bins = 15)
for i in list(data.columns[4:]):
plotter(i)
plt.title(i)
plt.show()
Как внутри таблицы распределени те или иные оценки тех или иных взаимодействий? Для ответа на этот вопрос были построены гистограммы (хотел сделать интерактивную, но не получилось экспортировать в html :( ).
Большинство пар белков не являются соседними на хромосоме, негомологичны, далеко расположены на филогенетических деревьях, не коэкспрессируются, имеют мало ассоциаций в базах. Однако, среди этого набора, всё-таки, в каждой из названных категорий находятся пары белков, которые имеют устойчивое взаимодействие. Есть соседние, есть близкие родственники, есть соэкспрессирующиеся и тд.
Таким образом удалось выяснить, что данный набор белков расположен в митохондриальном матриксе, играет роль в окислительно-восстановительных процессах, процессах метаболизма жиров и ацетил-КоА. Между некоторыми белками наблюдаются устойчивые взаимодействия. Но не всеми. Кажется, что данный набор белков можно разбить на пару-тройку кластеров, внутри которых были бы достаточно взаимодействующие друг с другом белки.