Практикум 8. UniProt Proteomes, EMBOSS, bash


ВВЕДЕНИЕ

В этом практикуме я работают с белком альфа субъединица часть 1 НАД(Ф)-трансгидрогеназы (NAD(P) transhydrogenase subunit alpha part 1). Это один из трёх компонентов NAD(P) трансгидрогеназы – белка-насоса, который контролирует перенос протона между NAD(H) и NADP(H) и участвует в создании протонного градиента в клетках прокариот и митохондриях эукариот. Первый компонент, о которой идет речь в данном обзоре, отвечает за связывание NAD(H). Его вторичная структура представлена двумя похожими доменами: dI.1 (остатки 1–137 and 328–384) и dI.2 (остатки 138-327). Оба домена состоят из бэта-листов, окруженных альфа-спиралями (Cotton el al., 2001).

Белок был выделен из Rhodospirillum rubrum. Эта подвижная спиралевидная пупрпурная несерная бактерия относится к семейству Rhodospirillaceae в классе Alphaproteobacteria. Она интересна своей способностью расти в широком спектре различных условий, в т.ч. анаэробно на свету, аэробно в темноте и анаэробно в темноте. В качетве источника энергии в анаэробных условиях может использоваться фотосинтез или ферментация (Schultz et al., 1982). Также интерес представляет способность R. rubrum ингибировать активность нитрогеназы для фиксации азота в присутвии аммиака и в отсутвуе света (Kanemoto et al., 1984).

Белку соответсвует идентификатор Q2RSB2. Он входит в кластеры UniRef100_Q2RSB2 (3 записи), UniRef90_Q2RSB2 (8 записей) и UniRef50_Q2RSB2 (2289 записей). Во всех трех кластерах Q2RSB2 является репрезентативным. В кластерах UniRef100_Q2RSB2 и UniRef90_Q2RSB2 он также является сидом. В UniRef50_Q2RSB2 сидом является последовательность UPI000A278DFA с длиной 471 аминокислотных остатков.

СРАВНЕНИЕ ПРОТЕОМОВ

НАД(Ф) трансгидрогеназа субъединица альфа часть 1 принадлежит бактерии Rhodospirillum rubrum(strain ATCC 11170 / ATH 1.1.1 / DSM 467 / LMG 4362 / NCIMB 8255 / S1), для неё доступен референсный протеом с идентификатором UP000001929, который был выбран в качестве исследуемого. В протеом входят 3835 белков, из них 383 (9.9%) находятся в базе Swiss-Prot. Судя по BUSCO (99.7% полных белков) и CPD (standard) протеом хорошо изучен.

В качестве контроля я выбрала протеом с ID UP000001591. Он принадлежит Rhodospirillum centenum (strain ATCC 51521 / SW). Эта бактерия относится к тому же роду, но отличается термостойкостью и способностью формировать цисты (Lu et al., 2010). В её протеоме 3984 белка, в т.ч. 207 (5.2%) из базы Swiss-Prot. BUSCO полных белков равен 98.5%, CPD: Close to standard. Таким образом, протеом R. centenum немного менее изучен, чем протеом R. rubrum, но это различие незначительно.

В процессе выполнения практикума я заметила, что различия между протеомами выбранных мною бактерий незначительны. Поэтому я решила добавить в сравнение третий протеом с ID UP000278036. Он пренадлежит Roseomonas wenyumeiae. Эта бактерия относится к тому же отряду Rhodospirillales, но в отличие от свободно живущих представителей Rhodospirillum, она была выделена из экскрементов тибетской антилопы Pantholops hodgsonii и является частью кишечной микробиоты этих позвоночных (Tizn et al., 2019). В протеоме R. wenyumeiae 5527 белков, из них ни один не описан вручную. BUSCO полных белков составляет 96.4%, а CPD близкий к стандарту с высоким значением. И-за отсутсвия белков R. wenyumeiae в базе Swiss-Prot я сделала вывод, что её протеом изучен хуже, чем протеомы двух других бактерий.

Команды для скачивания протеомов:

wget 'https://www.uniprot.org/uniprot/?query=proteome:UP000001929&format=txt&compress=yes' -O ./UP000001929.swiss.gz

wget 'https://www.uniprot.org/uniprot/?query=proteome:UP000001591&format=txt&compress=yes' -O ./UP000001591.swiss.gz


Команды для сравнения протеомов:


1. Длины белков

Я решила сравнить средние и максимальные значения длин белков у моих бактерий.

input_file = gzip.open(str(input()), "rt")
length=[]
for line in input_file:
  if line.startswith('ID'):
    ID=line.split()
    length.append(int(ID[-2]))
av=sum(length)/len(length)
length.sort()
print(f'Средняя длина белка равна {av:.02f} аминокислот')
print(f'{length[-4:]}')

Таблица 1. Средняя длина белка
Бактерия Средняя длина белка, aa Максимальная длина белка, аа
Rhodospirillum rubrum 337.05 1981
Rhodospirillum centenum 315.08 5368
Roseomonas wenyumeiae 304.08 2457

В таблице 1 приведены средние и максимальные длины белков изучаемых протеомов. Средняя длина белка Roseomonas wenyumeiae ниже чем у двух представителей рода Rhodospirillum, но это отличие нельзя назвать значительным. Небольшая средняя длина может говорить о давлении отбора в пользу менее энергетически затратных в построении белков (Wang et al., 2011), например у облигатных эндосимбионтов. Возможно, именно способность к симбиозу и объясняет относительно короткую среднуюю длину белка у Roseomonas wenyumeiae.

Значительно более заметны различия максимальной длины белка. У Rhodospirillum centenum она больше чем в 2 раза превышает максимальную длину у Roseomonas wenyumeiae и почти в 3 раза таковую у Rhodospirillum rubrum. Как уже было отмечено, Rhodospirillum centenum является термоустойчивой бактерией и образует цисты для переживания высоких температур. Может быть, необходимость выживать в неблагоприятных условях не позволяет укоротить даже самые длинные белки.

2. Трансмембранные белки

inp = gzip.open(str(input()), "rt")
trans_m=0
prot_cnt=0
line=inp.readline()
while line:
  FT=''
  line=inp.readline()
  while not line.startswith('ID') and line:
    if line.startswith('FT'):
      FT+=line
    line=inp.readline()
  if 'TRANSMEM' in FT:
    trans_m+=1
print(trans_m)

Таблица 2. Трансмембранные белки
Бактерия Кол-во трансмембранных белков Доля трансмембранных белков
Rhodospirillum rubrum 709 18.49%
Rhodospirillum centenum 702 17.62%
Roseomonas wenyumeiae 915 16.56%
Как видно из таблицы 2, доли трансмемранных белков этих трёх бактерий отличаются незначительно.

3. Ферменты

Ниже привидены результаты сравнения протеомов исследуемых бактерий на содержание различных классов ферментов.

inp = gzip.open(str(input()), "rt")
enz_cnt=0
unclear_enz_cnt=0
oxi_cnt=0
trfer_cnt=0
hydro_cnt=0
lya_cnt=0
iso_cnt=0
lig_cnt=0
trloc_cnt=0
line=inp.readline()
while line:
  DE=''
  line=inp.readline()
  while not line.startswith('ID') and line:
    if line.startswith('DE'):
      DE+=line
    line=inp.readline()
  if 'EC=' in DE and DE.count('EC=')!=1:
    unclear_enz_cnt+=1
  if 'EC=' in DE and DE.count('EC=')==1:
    enz_cnt+=1
  if 'EC=1' in DE and DE.count('EC=')==1:
    oxi_cnt+=1
  if 'EC=2'in DE and DE.count('EC=')==1:
    trfer_cnt+=1
  if 'EC=3'in DE and DE.count('EC=')==1:
    hydro_cnt+=1
  if 'EC=4'in DE and DE.count('EC=')==1:
    lya_cnt+=1
  if 'EC=5' in DE and DE.count('EC=')==1:
    iso_cnt+=1
  if 'EC=6' in DE and DE.count('EC=')==1:
    lig_cnt+=1
  if 'EC=7' in DE and DE.count('EC=')==1:
    trloc_cnt+=1
new_total=oxi_cnt+trfer_cnt+hydro_cnt+lya_cnt+iso_cnt+lig_cnt+trloc_cnt
enz_p=(enz_cnt/prot_cnt)*100
unclear_enz_p=(unclear_enz_cnt/enz_cnt)*100
oxi_p=(oxi_cnt/enz_cnt)*100
trfer_p=(trfer_cnt/enz_cnt)*100
hydro_p=(hydro_cnt/enz_cnt)*100
lya_p=(lya_cnt/enz_cnt)*100
iso_p=(iso_cnt/enz_cnt)*100
lig_p=(lig_cnt/enz_cnt)*100
trloc_p=(trloc_cnt/enz_cnt)*100
print(f' Unclear enzymes total {unclear_enz_cnt} {unclear_enz_p:.02f}\n Enzymes total {enz_cnt} {enz_p:.02f}\n Oxidoreductases {oxi_cnt} {oxi_p:.02f}\n Transferases {trfer_cnt} {trfer_p:.02f}\n Hydrolases {hydro_cnt} {hydro_p:.02f}\n Lyases {lya_cnt} {lya_p:.02f}\n Isomerases {iso_cnt} {iso_p:.02f}\n Ligases {lig_cnt} {lig_p:.02f}\n Translocases {trloc_cnt} {trloc_p:.02f}\n New Total {new_total}')

Таблица 3.Ферменты
Бактерия Все Неясные Оксидоредуктазы Трансферазы Гидролазы Лиазы Изомеразы Лигазы Транслоказы
кол-во кол-во доля кол-во доля кол-во доля кол-во доля кол-во доля кол-во доля кол-во доля кол-во доля
Rhodospirillum rubrum 1147 45 3.92% 213 18.57% 372 32.43% 254 22.14% 107 9.33% 60 5.23% 104 9.07% 37 3.23%
Rhodospirillum centenum 956 41 4.29% 167 17.47% 331 34.62% 209 21.86% 83 8.68% 56 5.86% 78 8.16% 32 3.35%
Roseomonas wenyumeiae 785 37 4.71% 128 16.31% 272 34.65% 146 18.60% 94 11.97% 48 6.11% 70 8.92% 27 3.44%

Для определения доли ферментов в протеомах я решила произвести поиск в строках DE на наличие классификация EC=*. Во время работы с файлами я заметила, что некоторые белки имеет сразу несколько классификаций, такие белки я выделила в отдельный столбец таблицы 3 – "неясные", их доля примерно равна 4% во всех трёх протеомах. Для исследуемых бактерий характерна высокая доля трансфераз (около трети от всех ферментов) и гидролаз (примерно четверть). Нет заметных отличий в содержании и остальных классов ферметов.

Однако, доля ферментов от общего количества белков у исследуемых бактерий заметно отличается. Так у Rhodospirillum rubrum она составляет 29.91%, у Rhodospirillum centenum 24.00%, а у Roseomonas wenyumeiae всего 14.20%, т.е. в 2 раза меньше, чем у первой бактерии. Это так же можно объяснить различием в образе жизни. У свободноживущих фотосинтезирующих бактерий потребность в ферментах выше, чем у эндосимбионта Roseomonas wenyumeiae.

ИСТОЧНИКИ

Schultz, J E, and P F Weaver. Fermentation and anaerobic respiration by Rhodospirillum rubrum and Rhodopseudomonas capsulata. Journal of bacteriology vol. 149,1 (1982): 181-90. doi:10.1128/jb.149.1.181-190.1982.

Kanemoto RH, Ludden PW. Effect of ammonia, darkness, and phenazine methosulfate on whole-cell nitrogenase activity and Fe protein modification in Rhodospirillum rubrum. J Bacteriol. 1984 May;158(2):713-20. doi: 10.1128/jb.158.2.713-720.1984. PMID: 6427184; PMCID: PMC215488.

Cotton NP, White SA, Peake SJ, McSweeney S, Jackson JB. The crystal structure of an asymmetric complex of the two nucleotide binding components of proton-translocating transhydrogenase. Structure. 2001 Feb 7;9(2):165-76. doi: 10.1016/s0969-2126(01)00571-8. PMID: 11250201.

Lu YK, Marden J, Han M, Swingley WD, Mastrian SD, Chowdhury SR, Hao J, Helmy T, Kim S, Kurdoglu AA, Matthies HJ, Rollo D, Stothard P, Blankenship RE, Bauer CE, Touchman JW. Metabolic flexibility revealed in the genome of the cyst-forming alpha-1 proteobacterium Rhodospirillum centenum. BMC Genomics. 2010 May 25;11:325. doi: 10.1186/1471-2164-11-325. PMID: 20500872; PMCID: PMC2890560.

Tian Z, Lu S, Jin D, Yang J, Pu J, Lai XH, Wang XX, Wu XM, Li J, Wang S, Xu J. Roseomonas wenyumeiae sp. nov., isolated from faeces of Tibetan antelopes (Pantholops hodgsonii) on the Qinghai-Tibet Plateau. Int J Syst Evol Microbiol. 2019 Oct;69(10):2979-2986. doi: 10.1099/ijsem.0.003479. PMID: 31145678.

Wang M, Kurland CG, Caetano-Anollés G. Reductive evolution of proteomes and protein structures. Proc Natl Acad Sci U S A. 2011 Jul 19;108(29):11954-8. doi: 10.1073/pnas.1017361108. Epub 2011 Jul 5. PMID: 21730144; PMCID: PMC3141956.