Практикумы 7-8

Практикум 7: Работа с UniProt

Организм: Mycobacterium marinum (штамм ATCC BAA-535 / M)

1. Выбор белка

Выбранный белок: B2HIL7 (MSL7_MYCMM) — Phenolphthiocerol synthesis polyketide synthase type I Pks15/1

Белок хорошо аннотирован (Swiss-Prot, версия 103), является крупной поликетидсинтазой I типа (2104 аминокислоты), участвующей в синтезе факторов вирулентности микобактерий.

2. Информация о белке

ПолеЗначение
DatabaseSwiss-Prot
IDMSL7_MYCMM
ACB2HIL7
Version103
NamePhenolphthiocerol synthesis polyketide synthase type I Pks15/1
TaxID216594
INSDCCP000854
Length2104
MW217744

3. Описание белка и его функции

Перевод названия на русский язык: Фенолфтиоцерол-синтаза — поликетидсинтаза I типа Pks15/1

Функция: Белок Pks15/1 (MSL7) катализирует элонгацию p-гидроксибензоильной группы с образованием интермедиатов p-гидроксифенилалканоата (pHPA) в процессе биосинтеза фенолфтиоцерола (PPOL). PPOL является важным промежуточным продуктом в синтезе фенольных гликолипидов (микозида B) — ключевых факторов вирулентности Mycobacterium marinum и родственных микобактерий.

4. Кластеры похожих белков (UniRef)

КластерIDSizeLengthName
UniRef100UniRef100_B2HIL712104Phenolphthiocerol synthesis polyketide synthase type I Pks15/1
UniRef90UniRef90_B2HIL7422104Phenolphthiocerol synthesis polyketide synthase type I Pks15/1
UniRef50UniRef50_B2HIL71472104Phenolphthiocerol synthesis polyketide synthase type I Pks15/1

5. Поисковые запросы

Запрос 1 (по названию белка): protein_name:Phenolphthiocerol

Результат: 940 записей

Вывод: Белки, связанные с синтезом фенолфтиоцерола, широко распространены среди микобактерий.

Запрос 2 (по гену): gene_exact:pks15/1

Результат: 61 запись

Вывод: Ген pks15/1 специфичен для микобактерий, представлен множеством вариантов аннотации в базе данных.

Запрос 3 (по EC номеру): ec:2.3.1.41 AND organism_name:Mycobacterium

Результат: 502 записи

Вывод: Ферментативная активность EC 2.3.1.41 широко распространена среди микобактерий, так как участвует в биосинтезе жирных кислот.

Практикум 8: UniProt Proteomes, EMBOSS

1. Поиск протеома, соответствующего геномной сборке

Геномная сборка — Mycobacterium marinum M (ASM1834v1).

  • Ссылка на страницу сборки в NCBI Datasets Genome: https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_000018345.1/
  • Идентификатор RefSeq: GCF_000018345.1
  • Идентификатор INSDC (GenBank): GCA_000018345.1
  • Поисковый запрос в UniProt Proteomes: genome_assembly:GCA_000018345.1
  • Идентификатор протеома: UP000001190
  • Статус протеома: Reference proteome (не избыточный, не исключённый)

2. Скачивание референсного протеома

Процедура поиска референсного протеома

  • TaxID организма: 216594
  • Поисковый запрос: taxonomy_id:216594 AND proteome_type:1 (тип «Reference proteome»)
  • Результат: единственный протеом UP000001190

Скачивание белковых записей

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000001190)' -O ~/term2/pr8/UP000001190.swiss.gz

3. Оценка числа белков, содержащих альфа-спирали


zcat ~/term2/pr8/UP000001190.swiss.gz | tr '\n' '\r' | sed 's/\/\/\r/\n/g' | grep 'FT   HELIX' | wc -l
zcat ~/term2/pr8/UP000001190.swiss.gz | tr '\n' '\r' | sed 's/\/\/\r/\n/g' | grep 'FT   TRANSMEM' | wc -l

Результаты: HELIX — 10 белков, TRANSMEM — 1001 белков.

Вывод: Белков с трансмембранными участками (TRANSMEM) оказалось почти в 100 раз больше, чем белков с альфа-спиралями (HELIX). Это связано с тем, что TRANSMEM аннотируется вычислительными методами для многих белков, а HELIX — только при наличии экспериментальных структур, которые есть лишь у очень небольшого числа белков.

Вывод о качестве оценки: Полученные значения (HELIX — 10, TRANSMEM — 1001) не отражают биологическую реальность, так как большинство трансмембранных доменов являются альфа-спиралями. Расхождение объясняется разными принципами аннотации: HELIX требует экспериментальной структуры, а TRANSMEM часто предсказывается вычислительно. Следовательно, оценка числа альфа-спиральных белков по ключу HELIX сильно занижена и не может считаться качественной.

4. Оценка количества ферментов в протеоме

  • Запрос по ключевым словам (все классы ферментов): (proteome:UP000001190) AND (keyword:enzyme OR keyword:hydrolase OR keyword:transferase OR keyword:oxidoreductase OR keyword:lyase OR keyword:isomerase OR keyword:ligase)1941 белок
  • Запрос по EC-номерам: (proteome:UP000001190) AND (ec:*)966 белков

Вывод: Оценка по ключевым словам (1941) более чем в два раза выше оценки по EC (966). Это объясняется тем, что EC-номера присваиваются только строго охарактеризованным ферментам, тогда как ключевые слова могут отражать предсказанную или частично подтверждённую ферментативную активность. Истинное число ферментов в протеоме Mycobacterium marinum (UP000001190) предположительно находится между этими значениями.