Поиск в UniProt Proteomes по идентификатору GCA_017815575.1 вернул один результат — протеом UP000665064 (Desulfovibrio desulfuricans L4, 2896 последовательностей). Статус протеома — Excluded: все последовательности депонированы в UniParc и отсутствуют в UniProtKB. Качество сборки по BUSCO — 99% (769 из 777 консервативных генов найдены).
Поскольку протеом UP000665064 имеет статус "Excluded" и отсутствует в UniProtKB, был выполнен поиск ближайшего референсного протеома для использования в аннотации. Поиск выполнялся в базе "Proteomes" последовательно по нескольким таксонам с синтаксисом proteome_type:1 (Reference proteome). Таксоны и их идентификаторы TaxID определялись в базе UniProt Taxonomy.
taxonomy_id:876 AND proteome_type:1 taxonomy_id:872 AND proteome_type:1
Запрос на уровне вида (D. desulfuricans, TaxID 876) не дал результатов. Запрос на уровне рода (Desulfovibrio, TaxID 872) вернул 13 результатов, из них был выбран UP000002194 (Nitratidesulfovibrio vulgaris (syn. Desulfovibrio vulgaris), штамм Hildenborough, ATCC 29579), как хорошо аннотированный - 3518 записей в UniProtKB.
Это наиболее близкий доступный референсный протеом для исследуемого штамма D. desulfuricans L4 — другой вид того же рода Desulfovibrio.
gzip-файл с белковыми записями в формате swiss (UniProt flat-file) скачан через PowerShell:[меня взяли в заложники разработчики win]
Invoke-WebRequest -Uri 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000002194' -OutFile 'UP000002194.swiss.gz'
В таблице локальных особенностей записей UniProtKB ключ HELIX соответствует аннотированным альфа-спиралям белков, а ключ TRANSMEM — трансмембранным участкам, которые чаще всего (хотя и не всегда) являются альфа-спиралями.
Для подсчёта использовался скрипт count_helix.py, анализирующий поле FT в каждой записи скачанного файла. Скрипт отслеживает наличие строк FT HELIX и FT TRANSMEM в пределах каждой записи (границы записей определяются по разделителю //). Результат: 20 белков с ключом HELIX, 599 белков с ключом TRANSMEM, из них 2 белка содержат оба ключа одновременно.
Для проверки результаты верифицированы поисковыми запросами на сайте UniProt:
proteome:UP000002194 AND ft_helix:* proteome:UP000002194 AND ft_transmem:*
Результаты полностью совпали с данными скрипта, что подтверждает его корректность.
Число белков с аннотированными трансмембранными участками (599) почти в 30 раз превышает число белков с явно аннотированными альфа-спиралями (20). Расхождение объясняется природой аннотации: ключ HELIX проставляется только при наличии экспериментальных структурных данных (как правило, из PDB) [1], тогда как ключ TRANSMEM активно проставляется по результатам предсказаний (например, TMhelix, Phobius) [2]. Таким образом, 20 — заниженная оценка, отражающая лишь хорошо охарактеризованные белки, а 599 — оценка по предсказаниям, которая может включать ложноположительные результаты. Реальное число белков с альфа-спиральными участками значительно выше 20, так как большинство трансмембранных участков у бактерий являются альфа-спиралями.
Для оценки числа ферментов использовались два поисковых запроса на сайте UniProt, различающихся по строгости критерия.
Запрос 1 — по наличию EC-номера в любом поле записи:
proteome:UP000002194 AND ec:*
Результат: 707 белков.
Запрос 2 — по наличию блока CATALYTIC ACTIVITY в поле CC:
proteome:UP000002194 AND cc_catalytic_activity:*
Результат: 590 белков.
Оба запроса дают нижние оценки реального числа ферментов — часть белков с ферментативной активностью может не иметь ни EC-номера, ни аннотированной каталитической реакции. При этом запросы отражают разные критерии аннотации: запрос 2 (590) — более строгий, требует явной аннотации реакции; запрос 1 (707) — более широкий, захватывает EC-номера из любых полей записи. Поскольку оба значения являются нижними оценками, реальное число ферментов в протеоме — не менее 707, то есть не менее 20% от общего числа белков (3518).
Продолжаю нарабатывать опыт использования библиотеки molstar. В этот раз для визуализации был выбран интересный белок P45575 — бета-субъединица диссимиляционной сульфитредуктазы (Sulfite reductase, dissimilatory-type subunit beta, ген dsvB/dsrB). Это один из ключевых ферментов Desulfovibrio, катализирующий восстановление сульфита до сульфида — финальный шаг диссимиляционного сульфатного дыхания (EC 1.8.1.22, Annotation score 5/5).
3D-Модель 1. Диссимиляционная сульфитредуктаза, субъединица бета (2V4J)