Практикум 8. Сравнение протеомов Pseudescherichia vulneris NBRC 102420 и Citrobacter koseri.

Задание 1.

В качестве референсного протеома я выбрал протеом Pseudescherichia vulneris NBRC 102420, так как в роде Phytobacter все протеомы удалены, а род Pseudescherichia vulneris относится к семейству, включающему род моей бактерии. Размер выбранного протеома близок к размеру протеомов таксономически близких ему организмов (CPD:Close to standard) и значение single в BUSCO составляет 99,5%.

Протеом Citrobacter koseri был выбран контрольным из-за того, что данный организм относится к семейству, которое включает род Phytobacter, и протеом обладает 'хорошими' значениями BUSCO и CPD. Также Citrobacter koseri в отличие от Pseudescherichia vulneris является патогенным для человека, хотя Pseudescherichia vulneris тоже может развиваться в человеческом организме (в особенности в ранах).

Команды для скачивания протеомов:

  1. wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000029462)' -O UP000029462.swiss.gz
  2. wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000008148)' -O UP000008148.swiss.gz

Задание 2.

общее количество белков трансмембранные белки ферменты вирулентные белки патогенные белки
Pseudescherichia vulneris 4196 901 (21,47%) 930 (22,16%) 4 (0,095%) 0
Citrobacter koseri 5019 1079 (21,50%) 1036 (20,64%) 3 (0,06%) 1 (0,02%)

Поисковые запросы в базе UniProtKB для подсчета количества трансмембранных белков:

  1. (proteome: UP000029462) AND (keyword:KW-0812)
  2. (proteome: UP000008148) AND (keyword:KW-0812)

Поисковые запросы в базе UniProtKB для подсчета количества ферментов:

  1. (proteome:UP000029462) AND (ec:*)
  2. (proteome:UP000008148) AND (ec:*)

Команды для подсчета количества вирулентных белков:

  1. zcat UP000029462.swiss.gz | grep '^DE' | grep -i 'virulence' | wc -l
  2. zcat UP000008148.swiss.gz | grep '^DE' | grep -i 'virulence' | wc -l

Команды для подсчета количества патогенных белков:

  1. zcat UP000029462.swiss.gz | grep '^DE' | grep -i 'pathogen' | wc -l
  2. zcat UP000008148.swiss.gz | grep '^DE' | grep -i 'pathogen' | wc -l

Задание 3. Сравнение протеомов по уровню достоверности существования их белков

В данных протеомах преобладают белки c уровнем достоверности 3 (существование белка доказывается из существования гомологов) и 4 (предсказанные; без четких доказательств), однако в обоих протеомах встречаются до 6 белков со значением PE равном 2 (есть доказательства на уровне транскрипта; основано на данных об экспресси). Значение PE 1 (доказательства на уровне белка; есть четкие экспериментальные доказательства) было найдено только в контрольном протеоме у 5 белков. На основе этих данных мы можем сделать вывод, что данные протеомы практически не отличаются друг от друга по значению PE у их белков.

Команды для подсчета PE:

  1. zcat UP000029462.swiss.gz | grep '^PE' | sort -n | uniq -c
  2. zcat UP000008148.swiss.gz | grep '^PE' | sort -n | uniq -c

Задание 3. Встречаемость ключевых слов в протеомах.

Команды для подсчета встречаемости 10 самых частых ключевых слов в протеомах (для референсного протеома результат сохраняется в файле nbrc_kw, для контрольного - в koseri_kw.):

  1. zcat UP000029462.swiss.gz | grep '^KW' | grep -v 'Reference proteome' | cut -d '{' -f1 | grep -v '}' | sort | tr -d 'KW' | uniq -c | sort -nr | head > nbrc_kw
  2. zcat UP000008148.swiss.gz | grep '^KW' | grep -v 'Reference proteome' | cut -d '{' -f1 | grep -v '}' | sort | tr -d 'KW' | uniq -c | sort -nr | head > koseri_kw

Ключевые слова для референсного протеома (число обозначает количество встреч):

  1. 963 Membrane
  2. 891 Transmembrane
  3. 873 Transmembrane helix
  4. 550 Cell membrane
  5. 489 Transferase
  6. 432 Metal-binding
  7. 383 Nucleotide-binding
  8. 361 Signal
  9. 358 Cytoplasm
  10. 336 ATP-binding

Ключевые слова для контрольного протеома (число обозначает количество встреч):

  1. 1014 Membrane
  2. 966 Transmembrane
  3. 916 Transmembrane helix
  4. 523 Cell membrane
  5. 431 Signal
  6. 379 Metal-binding
  7. 311 Nucleotide-binding
  8. 298 Transferase
  9. 274 ATP-binding
  10. 269 DNA-binding

В протеомах была обнаружена высокая встречаемость следующих ключевых слов: Membrane, Transmembrane, Transmembrane helix, Cell membrane, что было довльно ожидаемо, так как мембрана выполняет множетво важных функций (экзоцитоз, эндоцитоз, химическое распознавание вещества или раздражителя, активный транспорт и диффузия) за счет беклового разнооброзия. Наличие в списках Signal, Metal-binding, Transferase, ATP-binding, Cytoplasm, DNA-binding можно объяснить свойствами, которыми обладают белки с данными ключевыми словами: обеспечение внутреклеточного транспорта белков, связывание с ионнами металлов (перенос ионов, обеспечение протекания ферментативных реакций и т.д.), катализ переноса функцианальной группы, участие в энергозависимых реакциях, выполнение струтктурной и транспортной функций, влияние на экспрессию генов. Различия в частоте встречаемости данных ключевых слов может быть обусловлено приспособленностью организмов, чьи протеомы были выбраны, к разным условиям жизни (Citrobacter koseri в отличие от Pseudescherichia vulneris может встречаться в пищеварительной системе животных). Огромную ролб также играют белки обеспечивающие связывание с нуклеотидами (Nucleotide-binding), так как без них было бы невозможно осуществить транскрипцию или трансляцию.