Практикум 8. Протеомы
Введение
Я скачала протеом бактерии Pseudorhizobium banfieldiae с помощью команды
curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000010792)' > UP000010792.swiss.gz
Для сравнения я выбрала родственную ей бактерию Pseudorhizobium flavum. Мой выбор обоснован тем, что я упомянала ее в миниобзоре. P. banfieldiae - это хемолитоавтотрофная бактерия, способная получать энергию, восстанавливая соединения мышьяка в степени окисления +3, а также фиксировать углекислый газ в цикле Кальвина. P. flavum не умеет ни того, ни другого, как и более дальние родственники этих бактерий. Это говорит о том, что P. banfieldiae получил новые ферменты в результате естественного отбора и горизонтального переноса генов. Это позволило ему занять новую экологическую нишу.Протеом я скачала с помощью команды
curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000535501)' > UP000535501.swiss.gz
В протеоме P. banfieldiae 4603 белка, в протеоме P. flavum - 4595. Я предположила, что разница обусловлена как раз появлением у P. banfieldiae новых белков, позволяющих вести автотрофный образ жизни.
Подсчет белков
Трансмембранные белки
Количество трансмембранных белков я нашла с помощью запроса в Uniprot
(proteome:UP000010792) AND (ft_transmem:*) - для P. banfieldiae
(proteome:UP000535501) AND (ft_transmem:*) - для P. flavum
У меня получилось 912 и 931 белок соответственно.
Ферменты
Для нахождения количества ферментов использовала поисковые запросы
(proteome:UP000010792) AND (cc_catalytic_activity:*) - для P. banfieldiae
(proteome:UP000535501) AND (cc_catalytic_activity:*) - для P. flavum
У меня получилось соответственно 662 и 676 белков.
Белки, связанные с метаболизмом мышьяка
import gzip
with gzip.open('ID.swiss.gz', mode='rt') as input:
  proteom = input.read().split('\n')
names=[]
for line in proteom:
  if line[0:2] == 'DE':
    line = line[2:].strip()
    if line[0:2] != 'EC':
      names.append(line.lower())
t = 0
for name in names:
  if 'arsen' in name:
    print(name[14:)
  t += 1
print(t)
Для P. banfieldiae получилось 10 белков:
arsenic resistance protein arsb (acr3 family) arsenite effux pump {eco:0000313|embl:ccf20363.1};
arsenical resistance protein (putative flavoprotein) {eco:0000313|embl:ccf20361.1};
arsenate reductase {eco:0000256|rulebase:ru362029};
arsenate reductase {eco:0000256|rulebase:ru362029};
regulatory protein arsr arsenic resistance transcriptional regulator {eco:0000313|embl:ccf22148.1};
arsenite oxidase small subunit aiob rieske [2fe-2s] cluster {eco:0000313|embl:ccf22054.1};
arsenite resistance protein arsb (acr3 family) arsenite eflux pump transporter {eco:0000313|embl:ccf22144.1};
arsenate reductase {eco:0000313|embl:ccf22389.1};
arsenite oxidase large subunit aioa [3fe-4s] cluster, mo-molybdopterin cofactor-binding active site {eco:0000313|embl:ccf22055.1};
В протеоме P. flavum только 3 белка, связанных с метаболизмом мышьяка:
arsenate reductase {eco:0000256|rulebase:ru362029};
arsenic resistance protein arsh {eco:0000313|embl:mbb6178172.1};
У обеих бактерий белки (кроме арсенит оксидазы у P. banfieldiae) выполняют защитную функцию. У первой их больше, так как она постоянно находится в среде, где мышьяка много.
Также видно, что у P. flavum отсутствует арсенит оксидаза - фермент, с помощью которого P. banfieldiae получает энергию, окисляя арсенит.
Сравнение протеомов
Подсчет ПИП
Так как количество трансмембранных белков и ферментов отличается незначительно, я решила оценить степень изученности протеомов на основе среднего количества строчек, которые начинаются с букв СС. В этих строчках содержится различная информация о белках, такая как каталитическая активность, биотехнологический потенциал и медицинское зна>Чем больше изучен белок, тем больше у него строчек СС. Я считаю, что по среднему значению количества строчек СС можно оценить, насколько протеом изучен.
Будем называть это число ПИП - Показатель Изученности Протеома. Рассчитать его можно с помощью следующего кода:
import gzip
with gzip.open('ID.swiss.gz', mode='rt') as input:
  proteom = input.read().split('\n//\n') #Разбить протеом на отдельные белки
def cc_count(protein): #Посчитать количество строк, начинающихся на СС
  t = 0
  lines = protein.split('\n')
  for line in lines:
  if line[0:2] == 'CC':
    t += 1
return t
cc_list = list(map(lambda x: cc_count(x), proteom)) #Посчитать для всех белков
pip = sum(cc_list)/len(cc_list) #Найти среднее арифметическое
print(round(pip, 2))
Получилось соответственно 8,03 и 11,09. Значит, протеом второй бактерии лучше изучен.
Для сравнения я также скачала геном бактерии Bacillul subtilis, которая точно очень хорошо изучена. Ее ПИП равен 14,31. Это говорит о том, что ПИП действительно отражает степень изученности.
Уникальные лиганды
Далее я нашла все лиганды белков в обоих протеомах и посчитала те, которые встречаются только в одном:
import gzip
with gzip.open('/content/UP000010792.swiss.gz', mode='rt') as input:
  proteom = input.read().split('\n')
ligands1 = []
t = 0
for line in proteom:
  if 'ligand=' in line and line[30:-1] not in ligands1:
    ligands1.append(line[30:-1])
with gzip.open('/content/UP000535501.swiss.gz', mode='rt') as input:
  proteom = input.read().split('\n')
ligands2 = []
t = 0
for line in proteom:
  if 'ligand=' in line and line[30:-1] not in ligands2:
    ligands2.append(line[30:-1])
ligands1 = set(ligands1)
ligands2 = set(ligands2)
print(len(ligands1.difference(ligands2)))
print(len(ligands2.difference(ligands1)))
print(len(ligands1.intersection(ligands2)))
У P. banfieldiae 5 уникальных лигандов:
[3Fe-4S] cluster
dihydroxyacetone phosphate
Ca(2+)
ADP
pyrroloquinoline quinone
У P. flavum тоже 5 уникальных лигандов:
a ubiquinone
glycerol
spermidine
4-imidazolone-5-propanoate
N-formimidoyl-L-glutamate
Лигандов, общих для обеих бактерий - 97. Это гораздо больше, чем количество уникальных, так как бактерии все-таки довольно похожи.
Уникальные лиганды P. banfieldiae соответсвуют ее уникальным белкам. Например, железосерный кластер [3Fe-4S] относится к большой субъединице арсенитоксидазы.
Уникальные лиганды P. flavum видимо соответствуют белкам, связанным с гетеротрофным образом жизни. Например, N-formimidoyl-L-glutamate - это лиганд имидазол-5-пропионат гидролазы - фермента, участвующего в расщеплении гистидина. Автотрофной бактерии уже не нужно уметь расщеплять многие органические соединения, поэтому она утратила некоторые отвечающие за это гены.