Практикумы 7-8
Практикум 7: Работа с UniProt
Организм: Mycobacterium marinum (штамм ATCC BAA-535 / M)
1. Выбор белка
Выбранный белок: B2HIL7 (MSL7_MYCMM) — Phenolphthiocerol synthesis polyketide synthase type I Pks15/1
Белок хорошо аннотирован (Swiss-Prot, версия 103), является крупной поликетидсинтазой I типа (2104 аминокислоты), участвующей в синтезе факторов вирулентности микобактерий.
2. Информация о белке
| Поле | Значение |
|---|---|
| Database | Swiss-Prot |
| ID | MSL7_MYCMM |
| AC | B2HIL7 |
| Version | 103 |
| Name | Phenolphthiocerol synthesis polyketide synthase type I Pks15/1 |
| TaxID | 216594 |
| INSDC | CP000854 |
| Length | 2104 |
| MW | 217744 |
3. Описание белка и его функции
Перевод названия на русский язык: Фенолфтиоцерол-синтаза — поликетидсинтаза I типа Pks15/1
Функция: Белок Pks15/1 (MSL7) катализирует элонгацию p-гидроксибензоильной группы с образованием интермедиатов p-гидроксифенилалканоата (pHPA) в процессе биосинтеза фенолфтиоцерола (PPOL). PPOL является важным промежуточным продуктом в синтезе фенольных гликолипидов (микозида B) — ключевых факторов вирулентности Mycobacterium marinum и родственных микобактерий.
4. Кластеры похожих белков (UniRef)
| Кластер | ID | Size | Length | Name |
|---|---|---|---|---|
| UniRef100 | UniRef100_B2HIL7 | 1 | 2104 | Phenolphthiocerol synthesis polyketide synthase type I Pks15/1 |
| UniRef90 | UniRef90_B2HIL7 | 42 | 2104 | Phenolphthiocerol synthesis polyketide synthase type I Pks15/1 |
| UniRef50 | UniRef50_B2HIL7 | 147 | 2104 | Phenolphthiocerol synthesis polyketide synthase type I Pks15/1 |
5. Поисковые запросы
Запрос 1 (по названию белка): protein_name:Phenolphthiocerol
Результат: 940 записей
Вывод: Белки, связанные с синтезом фенолфтиоцерола, широко распространены среди микобактерий.
Запрос 2 (по гену): gene_exact:pks15/1
Результат: 61 запись
Вывод: Ген pks15/1 специфичен для микобактерий, представлен множеством вариантов аннотации в базе данных.
Запрос 3 (по EC номеру): ec:2.3.1.41 AND organism_name:Mycobacterium
Результат: 502 записи
Вывод: Ферментативная активность EC 2.3.1.41 широко распространена среди микобактерий, так как участвует в биосинтезе жирных кислот.
Практикум 8: UniProt Proteomes, EMBOSS
1. Поиск протеома, соответствующего геномной сборке
Геномная сборка — Mycobacterium marinum M (ASM1834v1).
- Ссылка на страницу сборки в NCBI Datasets Genome: https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_000018345.1/
- Идентификатор RefSeq: GCF_000018345.1
- Идентификатор INSDC (GenBank): GCA_000018345.1
- Поисковый запрос в UniProt Proteomes:
genome_assembly:GCA_000018345.1 - Идентификатор протеома: UP000001190
- Статус протеома: Reference proteome (не избыточный, не исключённый)
2. Скачивание референсного протеома
Процедура поиска референсного протеома
- TaxID организма: 216594
- Поисковый запрос:
taxonomy_id:216594 AND proteome_type:1(тип «Reference proteome») - Результат: единственный протеом UP000001190
Скачивание белковых записей
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000001190)' -O ~/term2/pr8/UP000001190.swiss.gz
3. Оценка числа белков, содержащих альфа-спирали
zcat ~/term2/pr8/UP000001190.swiss.gz | tr '\n' '\r' | sed 's/\/\/\r/\n/g' | grep 'FT HELIX' | wc -l
zcat ~/term2/pr8/UP000001190.swiss.gz | tr '\n' '\r' | sed 's/\/\/\r/\n/g' | grep 'FT TRANSMEM' | wc -l
Результаты: HELIX — 10 белков, TRANSMEM — 1001 белков.
Вывод: Белков с трансмембранными участками (TRANSMEM) оказалось почти в 100 раз больше, чем белков с альфа-спиралями (HELIX). Это связано с тем, что TRANSMEM аннотируется вычислительными методами для многих белков, а HELIX — только при наличии экспериментальных структур, которые есть лишь у очень небольшого числа белков.
Вывод о качестве оценки: Полученные значения (HELIX — 10, TRANSMEM — 1001) не отражают биологическую реальность, так как большинство трансмембранных доменов являются альфа-спиралями. Расхождение объясняется разными принципами аннотации: HELIX требует экспериментальной структуры, а TRANSMEM часто предсказывается вычислительно. Следовательно, оценка числа альфа-спиральных белков по ключу HELIX сильно занижена и не может считаться качественной.
4. Оценка количества ферментов в протеоме
- Запрос по ключевым словам (все классы ферментов):
(proteome:UP000001190) AND (keyword:enzyme OR keyword:hydrolase OR keyword:transferase OR keyword:oxidoreductase OR keyword:lyase OR keyword:isomerase OR keyword:ligase)→ 1941 белок - Запрос по EC-номерам:
(proteome:UP000001190) AND (ec:*)→ 966 белков
Вывод: Оценка по ключевым словам (1941) более чем в два раза выше оценки по EC (966). Это объясняется тем, что EC-номера присваиваются только строго охарактеризованным ферментам, тогда как ключевые слова могут отражать предсказанную или частично подтверждённую ферментативную активность. Истинное число ферментов в протеоме Mycobacterium marinum (UP000001190) предположительно находится между этими значениями.