Блок 3

Практикум 7: Работа с UniProt

Организм: Mycobacterium marinum (штамм ATCC BAA-535 / M)

1. Выбор белка

Выбранный белок: B2HIL7 (MSL7_MYCMM) — Phenolphthiocerol synthesis polyketide synthase type I Pks15/1

Белок хорошо аннотирован (Swiss-Prot, версия 103), является крупной поликетидсинтазой I типа (2104 аминокислоты), участвующей в синтезе факторов вирулентности микобактерий.

2. Информация о белке

ПолеЗначение
DatabaseSwiss-Prot
IDMSL7_MYCMM
ACB2HIL7
Version103
NamePhenolphthiocerol synthesis polyketide synthase type I Pks15/1
TaxID216594
INSDCCP000854
Length2104
MW217744

3. Описание белка и его функции

Перевод названия на русский язык: Фенолфтиоцерол-синтаза — поликетидсинтаза I типа Pks15/1

Функция: Белок Pks15/1 (MSL7) катализирует элонгацию p-гидроксибензоильной группы с образованием интермедиатов p-гидроксифенилалканоата (pHPA) в процессе биосинтеза фенолфтиоцерола (PPOL). PPOL является важным промежуточным продуктом в синтезе фенольных гликолипидов (микозида B) — ключевых факторов вирулентности Mycobacterium marinum и родственных микобактерий.

4. Кластеры похожих белков (UniRef)

КластерIDSizeLengthName
UniRef100UniRef100_B2HIL712104Phenolphthiocerol synthesis polyketide synthase type I Pks15/1
UniRef90UniRef90_B2HIL7422104Phenolphthiocerol synthesis polyketide synthase type I Pks15/1
UniRef50UniRef50_B2HIL71472104Phenolphthiocerol synthesis polyketide synthase type I Pks15/1

5. Поисковые запросы

Запрос 1 (по названию белка): protein_name:Phenolphthiocerol

Результат: 940 записей

Вывод: Белки, связанные с синтезом фенолфтиоцерола, широко распространены среди микобактерий.

Запрос 2 (по гену): gene_exact:pks15/1

Результат: 61 запись

Вывод: Ген pks15/1 специфичен для микобактерий, представлен множеством вариантов аннотации в базе данных.

Запрос 3 (по EC номеру): ec:2.3.1.41 AND organism_name:Mycobacterium

Результат: 502 записи

Вывод: Ферментативная активность EC 2.3.1.41 широко распространена среди микобактерий, так как участвует в биосинтезе жирных кислот.

Практикум 8: UniProt Proteomes, EMBOSS

1. Поиск протеома, соответствующего геномной сборке

Геномная сборка — Mycobacterium marinum M (ASM1834v1).

  • Ссылка на страницу сборки в NCBI Datasets Genome: https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_000018345.1/
  • Идентификатор RefSeq: GCF_000018345.1
  • Идентификатор INSDC (GenBank): GCA_000018345.1
  • Поисковый запрос в UniProt Proteomes: genome_assembly:GCA_000018345.1
  • Идентификатор протеома: UP000001190
  • Статус протеома: Reference proteome (не избыточный, не исключённый)

2. Скачивание референсного протеома

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000001190)' -O ~/term2/pr8/UP000001190.swiss.gz

3. Оценка числа белков, содержащих альфа-спирали

# Подсчёт HELIX и TRANSMEM (разбиение записей через tr + sed)
zcat ~/term2/pr8/UP000001190.swiss.gz | tr '\n' '\r' | sed 's/\/\/\r/\n/g' | grep 'FT   HELIX' | wc -l
zcat ~/term2/pr8/UP000001190.swiss.gz | tr '\n' '\r' | sed 's/\/\/\r/\n/g' | grep 'FT   TRANSMEM' | wc -l

Результаты: HELIX — 10 белков, TRANSMEM — 1001 белков.

Вывод: Белков с трансмембранными участками (TRANSMEM) оказалось почти в 100 раз больше, чем белков с альфа-спиралями (HELIX). Это связано с тем, что TRANSMEM аннотируется вычислительными методами для многих белков, а HELIX — только при наличии экспериментальных структур, которые есть лишь у очень небольшого числа белков.

4. Оценка количества ферментов в протеоме

  • Запрос по EC: proteome:UP000001190 AND ec:* → 966 белков
  • Запрос по Hydrolase: proteome:UP000001190 AND keyword:Hydrolase → 424 белка

Вывод: Оценка по EC-номерам (966) является более точной, поскольку наличие EC-номера — прямой признак ферментативной активности, и такой поиск охватывает все классы ферментов: оксидоредуктазы, трансферазы, гидролазы, лигазы и другие. Оценка по ключевому слову Hydrolase (424) ожидаемо ниже, так как учитывает только один класс — гидролазы. Таким образом, наиболее точная оценка количества ферментов в протеоме Mycobacterium marinum составляет 966 белков, что соответствует примерно 18% от общего числа белков (5418).

Студент 1 курса ФББ, 2026