В базе данных UniProt Proteomes по запросу Photobacterium ganghwense или (taxonomy_id:320778) находится четыре протеома, из них три избыточных (redundant proteome) и один рефересный. Один из найденных избыточных протеомов (UP000663115) принадлежит штамму С2.2, который описан в мини-обзоре. Рефересный протеом (UP000035909) принадлжет штамму DSM22954, типовому для данного вида. Интересно, что геном штамма С2.2 идентичен геному штамма DSM22954 на 99,68%, что делает их филогенетически близкими организмами [1]. Таким образом, в качестве протеома, который наилучшим образом описывает бактерию, выбран протеом типового штамма под идендификатаром UP000035909.
Taxonomy, strain | Proteome ID | Status | Protein count | Swiss-Prot protein | CPD | BUSCO |
Photobacterium ganghwense, C2.2 | UP000663115 | Redundant proteome | 4,904 | - | Outlier (high value) | C:99.7% |
Photobacterium ganghwense, DSM22954 | UP000035909 | Reference proteome | 4,693 | - | Close to standard (high value) | C:99.6% |
Vibrio thalassae, CECT8203 | UP000219336 | Reference proteome | 4,624 | - | Standard | C:99.7% |
Выбор бактерии-контроля производился с помощью запроса:
(taxonomy_id:641) AND (cpd:1) AND (busco:[89 TO 100]) AND (proteome_type:1)
то есть поиск в пределах семейства Vibrionaceae (включающий род Photobacterium), с референсным протеомом, высокими показателями
качества и полноты протеома (BUSCO и CPD соответственно). Из 23 результатов поиска был выбран протеом UP000219336 Vibrio thalassae, имеющий схожее
количество белков, которые также не относятся к базе Swiss-Prot.
К метаболическим различиям выбранных для сравнения бактерий можно отнести отсутствие белка
Maltoporin, который является одним из (всего) трех белков Photobacterium ganghwense, существование котрых доказано на уровне транскрипта
((protein_name:Maltoporin) AND (taxonomy_id:320778) для Photobacterium ganghwense выдает результаты, а (protein_name:Maltoporin) AND (taxonomy_id:1243014) для Vibrio thalassae нет).
Отсутствие протеомных белков в Swiss-Prot огорчает и понижает степень изученности протеомов, однако по таким показателям, как CPD и BUSCO, выбранные протеомы сравнимы и подходят для анализа.
Чтобы сравнить протеомы по представленности групп белков, используя скаченные файлы, необходимо выбрать поле, по которому будет идти анализ. Дело в том, что информация, указанная в KW и в СС часто не совпадает в силу неполноты последнего поля. Однако, если использовать KW, то можно столкнуться с проблемой дублирования информации в строках (например "Transmembrane" и "Transmembrane helix"). В тоже время поле СС имеет topic, по которому удобно проводить анализ "useful information". Таким образом анализ представленности функциональных групп белков в протеомах будет проводится по информации из поля СС.
Bacteria | Transmembrane | Catalytic activity | Porin | Luciferase |
Photobacterium ganghwense | 703 (15%) | 1084 (23.1%) | 4 (<1%) | 2 (<1%) |
Vibrio thalassae | 685 (14.8%) | 1031 (22.3%) | 4 (<1%) | 1 (<1%) |
По результатам, представленным в таблице, можно судить о том, что значительной разницы в количестве трансмембранных белков и ферментов между исследуемой бактерией и контролем нет.
Maltoporin, на котором строилось различие этих бактерий, относится к семейству поринов. Интересно, что к данному семейству белков у обеих бактерий относится по 4 белка, однако для Vibrio thalassae преобладают порины грамм-отрицательных бактерий, но также есть порин, принадлежащий к семейству LamB, как и Maltoporin.
Для представителей семества Vibrionaceae характерно явление биолюминсценции. На молекулярном уровне биолюминесценция активируется каскадом химических реакций. Один из участников каскада - люцифераза, продуцирующая светоизлучательные вещества [2]. Монооксигеназы с предполагаемой люциферазной активностью имеют в своей структуре люциферазоподобный домен (luciferase-like domain). Анализ протеомов показал, что для исследуемой бактерии предсказано 2 таких монооксигеназы, а для контольной бактерии - одна.
Используемые команды bash:
zgrep 'CC -!- SUBCELLULAR LOCATION:' UP000035909.swiss.gz | grep '[mM]embrane' | wc -l
zgrep 'CC -!- CATALYTIC ACTIVITY:' UP000035909.swiss.gz | wc -l
zgrep 'CC -!- SIMILARITY:' UP000035909.swiss.gz | grep 'porin' | less
zgrep '^FT' UP000035909.swiss | grep 'Luciferase-like' | wc -l
для Photobacterium ganghwense
zgrep 'CC -!- SUBCELLULAR LOCATION:' UP000219336.swiss.gz | grep '[mM]embrane' | wc -l
zgrep 'CC -!- CATALYTIC ACTIVITY:' UP000219336.swiss.gz | wc -l
zgrep 'CC -!- SIMILARITY:' UP000219336.swiss.gz | grep 'porin' | less
zgrep '^FT' UP000219336.swiss | grep 'Luciferase-like' | wc -l
для Vibrio thalassae
Photobacterium ganghwense | Vibrio thalassae |
|
|
Ожидаемо, самыми многочисленными являются трансмембранные белки, белки связывающиеся с нукеотидами и металлами. Различия в порядке фементов незначительны.
Используемые команды bash:
zcat UP000035909.swiss.gz | grep '^KW' | grep -v '}'| cut -d '{' -f1 | tr -d 'KW' | sort | uniq -c | sort -nr | head > KW_PG.txt
zcat UP000219336.swiss.gz | grep '^KW' | grep -v '}'| cut -d '{' -f1 | tr -d 'KW' | sort | uniq -c | sort -nr | head > KW_VT.txt
Photobacterium ganghwense | Vibrio thalassae |
1E, 1H, 1K, 1L, 1N, 1P, 1Q, 2I, 2S, 3V, 4T, 5D, 5F, 5R, 6A, 7G, 4647 M | 4624 M |
Протеом исследуемой бактерии примечателен тем, что 46 белков начинаются не с метионина, в то время как у контрольного протеома все классически. Рассмотрим белки, начинающиеся, например, с валина.
Все белки имеют небольшую длину, плохо аннотированы и предсказаны по гомологии (судя по UniRef, на основе рода Vibrio). Поскольку функционально данные белки не связаны, у меня нет преположений, зачем у них отрезается стартовый метионин. Но интересно посмотреть, какие ферменты отрезают N-концевой метионин и присутствуют ли они в протеоме Photobacterium ganghwense. Согласно источнику [3] в этом процессе участвуют два фермента: peptide deformylase (PDF) и methionine aminopeptidase (MAP). Они также предсказаны по гомологии.
Используемые команды bash (на примере Photobacterium ganghwense):
gzip -dk UP000035909.swiss.gz
seqret -filter 'UP000035909.swiss' 'PG.fasta'
seqret -filter 'PG.fasta:*[1:1]' 'first_aa_PG.fasta'
awk '{print $1}' FS='[{]' first_aa_PG.fasta > short_name_first_aa.fasta
grep -v '>' short_name_first_aa.fasta | sort | uniq -c | less
grep -B 1 '^V' short_name_first_aa_PG.fasta | less
Поисковые запросы:
Источники: