практикум №8

UniProt Proteomes, EMBOSS

Сравнение протеомов бактерий Photobacterium ganghwense и Vibrio thalassae


1. Выбор протеомов

Исследуемый протеом

В базе данных UniProt Proteomes по запросу Photobacterium ganghwense или (taxonomy_id:320778) находится четыре протеома, из них три избыточных (redundant proteome) и один рефересный. Один из найденных избыточных протеомов (UP000663115) принадлежит штамму С2.2, который описан в мини-обзоре. Рефересный протеом (UP000035909) принадлжет штамму DSM22954, типовому для данного вида. Интересно, что геном штамма С2.2 идентичен геному штамма DSM22954 на 99,68%, что делает их филогенетически близкими организмами [1]. Таким образом, в качестве протеома, который наилучшим образом описывает бактерию, выбран протеом типового штамма под идендификатаром UP000035909.

Taxonomy, strain Proteome ID Status Protein count Swiss-Prot protein CPD BUSCO
Photobacterium ganghwense, C2.2 UP000663115 Redundant proteome 4,904 - Outlier (high value) C:99.7%
Photobacterium ganghwense, DSM22954 UP000035909 Reference proteome 4,693 - Close to standard (high value) C:99.6%
Vibrio thalassae, CECT8203 UP000219336 Reference proteome 4,624 - Standard C:99.7%

Протеом-контроль

Выбор бактерии-контроля производился с помощью запроса:
(taxonomy_id:641) AND (cpd:1) AND (busco:[89 TO 100]) AND (proteome_type:1)
то есть поиск в пределах семейства Vibrionaceae (включающий род Photobacterium), с референсным протеомом, высокими показателями качества и полноты протеома (BUSCO и CPD соответственно). Из 23 результатов поиска был выбран протеом UP000219336 Vibrio thalassae, имеющий схожее количество белков, которые также не относятся к базе Swiss-Prot.

К метаболическим различиям выбранных для сравнения бактерий можно отнести отсутствие белка Maltoporin, который является одним из (всего) трех белков Photobacterium ganghwense, существование котрых доказано на уровне транскрипта
((protein_name:Maltoporin) AND (taxonomy_id:320778) для Photobacterium ganghwense выдает результаты, а (protein_name:Maltoporin) AND (taxonomy_id:1243014) для Vibrio thalassae нет).

Отсутствие протеомных белков в Swiss-Prot огорчает и понижает степень изученности протеомов, однако по таким показателям, как CPD и BUSCO, выбранные протеомы сравнимы и подходят для анализа.

2. Сравнение протеомов по представленности групп белков

Чтобы сравнить протеомы по представленности групп белков, используя скаченные файлы, необходимо выбрать поле, по которому будет идти анализ. Дело в том, что информация, указанная в KW и в СС часто не совпадает в силу неполноты последнего поля. Однако, если использовать KW, то можно столкнуться с проблемой дублирования информации в строках (например "Transmembrane" и "Transmembrane helix"). В тоже время поле СС имеет topic, по которому удобно проводить анализ "useful information". Таким образом анализ представленности функциональных групп белков в протеомах будет проводится по информации из поля СС.

Bacteria Transmembrane Catalytic activity Porin Luciferase
Photobacterium ganghwense 703 (15%) 1084 (23.1%) 4 (<1%) 2 (<1%)
Vibrio thalassae 685 (14.8%) 1031 (22.3%) 4 (<1%) 1 (<1%)

По результатам, представленным в таблице, можно судить о том, что значительной разницы в количестве трансмембранных белков и ферментов между исследуемой бактерией и контролем нет.

Maltoporin, на котором строилось различие этих бактерий, относится к семейству поринов. Интересно, что к данному семейству белков у обеих бактерий относится по 4 белка, однако для Vibrio thalassae преобладают порины грамм-отрицательных бактерий, но также есть порин, принадлежащий к семейству LamB, как и Maltoporin.

Для представителей семества Vibrionaceae характерно явление биолюминсценции. На молекулярном уровне биолюминесценция активируется каскадом химических реакций. Один из участников каскада - люцифераза, продуцирующая светоизлучательные вещества [2]. Монооксигеназы с предполагаемой люциферазной активностью имеют в своей структуре люциферазоподобный домен (luciferase-like domain). Анализ протеомов показал, что для исследуемой бактерии предсказано 2 таких монооксигеназы, а для контольной бактерии - одна.

Используемые команды bash:

    zgrep 'CC   -!- SUBCELLULAR LOCATION:' UP000035909.swiss.gz | grep '[mM]embrane' | wc -l
    zgrep 'CC   -!- CATALYTIC ACTIVITY:' UP000035909.swiss.gz | wc -l
    zgrep 'CC   -!- SIMILARITY:' UP000035909.swiss.gz | grep 'porin' | less
    zgrep '^FT' UP000035909.swiss | grep 'Luciferase-like' | wc -l

для Photobacterium ganghwense

    zgrep 'CC   -!- SUBCELLULAR LOCATION:' UP000219336.swiss.gz | grep '[mM]embrane' | wc -l
    zgrep 'CC   -!- CATALYTIC ACTIVITY:' UP000219336.swiss.gz | wc -l
    zgrep 'CC   -!- SIMILARITY:' UP000219336.swiss.gz | grep 'porin' | less
    zgrep '^FT' UP000219336.swiss | grep 'Luciferase-like' | wc -l

для Vibrio thalassae

3.1 Сравнение протеомов по ключевым словам

Photobacterium ganghwense Vibrio thalassae
  1. 562 Transmembrane helix
  2. 231 Transmembrane
  3. 228 Metal-binding
  4. 211 Nucleotide-binding
  5. 156 Transferase
  6. 149 ATP-binding
  7. 134 Oxidoreductase
  8. 127 Cell membrane
  9. 67 DNA-binding
  10. 56 RNA-binding
  1. 564 Transmembrane helix
  2. 230 Transmembrane
  3. 215 Metal-binding
  4. 205 Nucleotide-binding
  5. 169 Oxidoreductase
  6. 160 Transferase
  7. 144 ATP-binding
  8. 127 Cell membrane
  9. 68 DNA-binding
  10. 59 Methyltransferase

Ожидаемо, самыми многочисленными являются трансмембранные белки, белки связывающиеся с нукеотидами и металлами. Различия в порядке фементов незначительны.

Используемые команды bash:

zcat UP000035909.swiss.gz | grep '^KW' | grep -v '}'| cut -d '{' -f1 | tr -d 'KW' | sort | uniq -c | sort -nr | head > KW_PG.txt
zcat UP000219336.swiss.gz | grep '^KW' | grep -v '}'| cut -d '{' -f1 | tr -d 'KW' | sort | uniq -c | sort -nr | head > KW_VT.txt

3.2 Сравнение протеомов по первой аминокислоте белков

Photobacterium ganghwense Vibrio thalassae
1E, 1H, 1K, 1L, 1N, 1P, 1Q, 2I, 2S, 3V, 4T, 5D, 5F, 5R, 6A, 7G, 4647 M 4624 M

Протеом исследуемой бактерии примечателен тем, что 46 белков начинаются не с метионина, в то время как у контрольного протеома все классически. Рассмотрим белки, начинающиеся, например, с валина.

  1. A0A0J1GHQ6, Peptidoglycan transglycosylase, length 52 aa
  2. A0A0J1GMA6, Transketolase, length 118 aa
  3. A0A0J1JC88, Imidazolonepropionase, length 97 aa

Все белки имеют небольшую длину, плохо аннотированы и предсказаны по гомологии (судя по UniRef, на основе рода Vibrio). Поскольку функционально данные белки не связаны, у меня нет преположений, зачем у них отрезается стартовый метионин. Но интересно посмотреть, какие ферменты отрезают N-концевой метионин и присутствуют ли они в протеоме Photobacterium ganghwense. Согласно источнику [3] в этом процессе участвуют два фермента: peptide deformylase (PDF) и methionine aminopeptidase (MAP). Они также предсказаны по гомологии.

Используемые команды bash (на примере Photobacterium ganghwense):

Поисковые запросы:


Источники:

  1. Complete genome sequence of Photobacterium ganghwense C2.2: A new polyhydroxyalkanoate production candidate. Lascu I. et al., 2021, MicrobiologyOpen, Т. 10, №. 2, e1182.
  2. Molecular mechanisms of bacterial bioluminescence. Brodl E. et al., 2018, Computational and structural biotechnology journal, Т. 16.
  3. https://www.researchgate.net/post/Does_every_protein_start_with_methionine