Практикум 8. Протеомы

Введение

Я скачала протеом бактерии Pseudorhizobium banfieldiae с помощью команды

curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000010792)' > UP000010792.swiss.gz

Для сравнения я выбрала родственную ей бактерию Pseudorhizobium flavum. Мой выбор обоснован тем, что я упомянала ее в миниобзоре. P. banfieldiae - это хемолитоавтотрофная бактерия, способная получать энергию, восстанавливая соединения мышьяка в степени окисления +3, а также фиксировать углекислый газ в цикле Кальвина. P. flavum не умеет ни того, ни другого, как и более дальние родственники этих бактерий. Это говорит о том, что P. banfieldiae получил новые ферменты в результате естественного отбора и горизонтального переноса генов. Это позволило ему занять новую экологическую нишу.

Протеом я скачала с помощью команды

curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000535501)' > UP000535501.swiss.gz

В протеоме P. banfieldiae 4603 белка, в протеоме P. flavum - 4595. Я предположила, что разница обусловлена как раз появлением у P. banfieldiae новых белков, позволяющих вести автотрофный образ жизни.

Подсчет белков

Трансмембранные белки

Количество трансмембранных белков я нашла с помощью запроса в Uniprot

(proteome:UP000010792) AND (ft_transmem:*) - для P. banfieldiae

(proteome:UP000535501) AND (ft_transmem:*) - для P. flavum

У меня получилось 912 и 931 белок соответственно.

Ферменты

Для нахождения количества ферментов использовала поисковые запросы

(proteome:UP000010792) AND (cc_catalytic_activity:*) - для P. banfieldiae

(proteome:UP000535501) AND (cc_catalytic_activity:*) - для P. flavum

У меня получилось соответственно 662 и 676 белков.

Белки, связанные с метаболизмом мышьяка

import gzip

with gzip.open('ID.swiss.gz', mode='rt') as input:

  proteom = input.read().split('\n')

names=[]

for line in proteom:

  if line[0:2] == 'DE':

    line = line[2:].strip()

    if line[0:2] != 'EC':

      names.append(line.lower())

t = 0

for name in names:

  if 'arsen' in name:

    print(name[14:)

  t += 1

print(t)

Для P. banfieldiae получилось 10 белков:

arsenical pump-driving atpase {eco:0000256|pirnr:pirnr001327};

arsenic resistance protein arsb (acr3 family) arsenite effux pump {eco:0000313|embl:ccf20363.1};

arsenical resistance protein (putative flavoprotein) {eco:0000313|embl:ccf20361.1};

arsenate reductase {eco:0000256|rulebase:ru362029};

arsenate reductase {eco:0000256|rulebase:ru362029};

regulatory protein arsr arsenic resistance transcriptional regulator {eco:0000313|embl:ccf22148.1};

arsenite oxidase small subunit aiob rieske [2fe-2s] cluster {eco:0000313|embl:ccf22054.1};

arsenite resistance protein arsb (acr3 family) arsenite eflux pump transporter {eco:0000313|embl:ccf22144.1};

arsenate reductase {eco:0000313|embl:ccf22389.1};

arsenite oxidase large subunit aioa [3fe-4s] cluster, mo-molybdopterin cofactor-binding active site {eco:0000313|embl:ccf22055.1};

В протеоме P. flavum только 3 белка, связанных с метаболизмом мышьяка:

acr3 family arsenite transporter {eco:0000313|embl:mbb6178170.1};

arsenate reductase {eco:0000256|rulebase:ru362029};

arsenic resistance protein arsh {eco:0000313|embl:mbb6178172.1};

У обеих бактерий белки (кроме арсенит оксидазы у P. banfieldiae) выполняют защитную функцию. У первой их больше, так как она постоянно находится в среде, где мышьяка много.

Также видно, что у P. flavum отсутствует арсенит оксидаза - фермент, с помощью которого P. banfieldiae получает энергию, окисляя арсенит.

Сравнение протеомов

Подсчет ПИП

Так как количество трансмембранных белков и ферментов отличается незначительно, я решила оценить степень изученности протеомов на основе среднего количества строчек, которые начинаются с букв СС. В этих строчках содержится различная информация о белках, такая как каталитическая активность, биотехнологический потенциал и медицинское зна>Чем больше изучен белок, тем больше у него строчек СС. Я считаю, что по среднему значению количества строчек СС можно оценить, насколько протеом изучен.

Будем называть это число ПИП - Показатель Изученности Протеома. Рассчитать его можно с помощью следующего кода:

import gzip

with gzip.open('ID.swiss.gz', mode='rt') as input:

  proteom = input.read().split('\n//\n') #Разбить протеом на отдельные белки

def cc_count(protein): #Посчитать количество строк, начинающихся на СС

  t = 0

  lines = protein.split('\n')

  for line in lines:

  if line[0:2] == 'CC':

    t += 1

return t

cc_list = list(map(lambda x: cc_count(x), proteom)) #Посчитать для всех белков

pip = sum(cc_list)/len(cc_list) #Найти среднее арифметическое

print(round(pip, 2))

Получилось соответственно 8,03 и 11,09. Значит, протеом второй бактерии лучше изучен.

Для сравнения я также скачала геном бактерии Bacillul subtilis, которая точно очень хорошо изучена. Ее ПИП равен 14,31. Это говорит о том, что ПИП действительно отражает степень изученности.

Уникальные лиганды

Далее я нашла все лиганды белков в обоих протеомах и посчитала те, которые встречаются только в одном:

import gzip

with gzip.open('/content/UP000010792.swiss.gz', mode='rt') as input:

  proteom = input.read().split('\n')

ligands1 = []

t = 0

for line in proteom:

  if 'ligand=' in line and line[30:-1] not in ligands1:

    ligands1.append(line[30:-1])

with gzip.open('/content/UP000535501.swiss.gz', mode='rt') as input:

  proteom = input.read().split('\n')

ligands2 = []

t = 0

for line in proteom:

  if 'ligand=' in line and line[30:-1] not in ligands2:

    ligands2.append(line[30:-1])

ligands1 = set(ligands1)

ligands2 = set(ligands2)

print(len(ligands1.difference(ligands2)))

print(len(ligands2.difference(ligands1)))

print(len(ligands1.intersection(ligands2)))

У P. banfieldiae 5 уникальных лигандов:

[3Fe-4S] cluster

dihydroxyacetone phosphate

Ca(2+)

ADP

pyrroloquinoline quinone

У P. flavum тоже 5 уникальных лигандов:

a ubiquinone

glycerol

spermidine

4-imidazolone-5-propanoate

N-formimidoyl-L-glutamate

Лигандов, общих для обеих бактерий - 97. Это гораздо больше, чем количество уникальных, так как бактерии все-таки довольно похожи.

Уникальные лиганды P. banfieldiae соответсвуют ее уникальным белкам. Например, железосерный кластер [3Fe-4S] относится к большой субъединице арсенитоксидазы.

Уникальные лиганды P. flavum видимо соответствуют белкам, связанным с гетеротрофным образом жизни. Например, N-formimidoyl-L-glutamate - это лиганд имидазол-5-пропионат гидролазы - фермента, участвующего в расщеплении гистидина. Автотрофной бактерии уже не нужно уметь расщеплять многие органические соединения, поэтому она утратила некоторые отвечающие за это гены.