Геномная сборка Desulfovibrio desulfuricans L4 в базе RefSeq имеет идентификатор
GCF_017815575.1. На странице сборки в
NCBI Datasets
указан соответствующий GenBank-идентификатор: GCA_017815575.1
(поле Submitted GenBank assembly). UniProt Proteomes индексирует сборки по
INSDC-идентификаторам (GenBank/ENA/DDBJ), поэтому для поиска используется именно он.
Поиск в UniProt Proteomes
через расширенный поиск (Advanced) по полю Genome Assembly с запросом
GCA_017815575.1 вернул один результат —
протеом UP000665064
(Desulfovibrio desulfuricans L4, 2896 последовательностей). Статус протеома —
Excluded: все последовательности депонированы в UniParc и отсутствуют
в UniProtKB. Статус Excluded означает что протеом был удалён из UniProtKB; он не является
«избыточным» (Redundant) относительно какого-либо конкретного протеома-представителя —
это два разных статуса в UniProt. Качество сборки по BUSCO — 99% (769 из 777
консервативных генов найдены).
Поскольку протеом UP000665064 имеет статус Excluded и отсутствует в UniProtKB,
был выполнен поиск ближайшего референсного протеома. Поиск проводился в UniProt Proteomes
с условием proteome_type:1 (Reference proteome) последовательно по нескольким
таксонам.
taxonomy_id:876 AND proteome_type:1 taxonomy_id:872 AND proteome_type:1
Запрос на уровне вида (D. desulfuricans, TaxID 876) не дал результатов. Запрос на уровне рода (Desulfovibrio, TaxID 872) вернул 13 референсных протеомов. Из них выбран UP000002194 (Nitratidesulfovibrio vulgaris (syn. Desulfovibrio vulgaris), штамм Hildenborough, ATCC 29579) — наиболее изученный представитель рода, с наибольшим числом записей в UniProtKB (3518).
Файл с белковыми записями в текстовом формате UniProt (swiss/flat-file) также можно скачать в консоли командой:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000002194' -O UP000002194.swiss.gz
В таблице локальных особенностей записей UniProtKB ключ HELIX соответствует аннотированным альфа-спиралям белков, а ключ TRANSMEM — трансмембранным участкам, которые чаще всего (хотя и не всегда) являются альфа-спиралями.
Для подсчёта использовался скрипт count_helix.py, анализирующий поле FT в каждой записи скачанного файла. Скрипт отслеживает наличие строк FT HELIX и FT TRANSMEM в пределах каждой записи (границы записей определяются по разделителю //). Результат: 20 белков с ключом HELIX, 599 белков с ключом TRANSMEM, из них 2 белка содержат оба ключа одновременно.
Для проверки результаты верифицированы поисковыми запросами на сайте UniProt:
proteome:UP000002194 AND ft_helix:* proteome:UP000002194 AND ft_transmem:*
Результаты полностью совпали с данными скрипта, что подтверждает его корректность.
Число белков с аннотированными трансмембранными участками (599) почти в 30 раз превышает число белков с явно аннотированными альфа-спиралями (20). Расхождение объясняется природой аннотации: ключ HELIX проставляется только при наличии экспериментальных структурных данных (как правило, из PDB) [1], тогда как ключ TRANSMEM активно проставляется по результатам предсказаний (например, TMhelix, Phobius) [2]. Таким образом, 20 — заниженная оценка, отражающая лишь хорошо охарактеризованные белки, а 599 — оценка по предсказаниям, которая может включать ложноположительные результаты. Реальное число белков с альфа-спиральными участками значительно выше 20, так как большинство трансмембранных участков у бактерий являются альфа-спиралями.
Для оценки числа ферментов использовались два поисковых запроса на сайте UniProt, различающихся по строгости критерия.
Запрос 1 — по наличию EC-номера в любом поле записи:
proteome:UP000002194 AND ec:*
Результат: 707 белков.
Запрос 2 — по наличию блока CATALYTIC ACTIVITY в поле CC:
proteome:UP000002194 AND cc_catalytic_activity:*
Результат: 590 белков.
Оба запроса дают нижние оценки реального числа ферментов — часть белков с
ферментативной активностью может не иметь ни EC-номера, ни аннотированной каталитической
реакции. Запросы отражают разные критерии: запрос 1 (ec:*, 707 белков) —
более широкий, захватывает EC-номера из любых полей записи; запрос 2
(cc_catalytic_activity:*, 590 белков) — более строгий, требует явной
аннотации каталитической реакции. Таким образом, число ферментов в протеоме лежит
в диапазоне не менее 590 — это консервативная оценка по строгому критерию.
Доля ферментов составляет не менее 17% от общего числа белков (3518).
Для визуализации был выбран интересный белок P45575 — бета-субъединица диссимиляционной сульфитредуктазы (Sulfite reductase, dissimilatory-type subunit beta, ген dsvB/dsrB). Это один из ключевых ферментов Desulfovibrio, катализирующий восстановление сульфита до сульфида — финальный шаг диссимиляционного сульфатного дыхания (EC 1.8.1.22, Annotation score 5/5).
3D-Модель 1. Диссимиляционная сульфитредуктаза, субъединица бета (2V4J)