Ссылка на страницу сборки в базе NCBI Datasets Genome: тут
Идентификатор последней версии сборки в INSDC: GCA_000008625.1
Идентификатор последней сборки в RefSeq: GCF_000008625.1
Для поиска соответствующего протеома в базе UniProt Proteomes использовался запрос: proteome_type:1 AND assembly_id:GCA_000008625.1 (где proteome_type:1 означает референсный протеом).
Этот запрос выдал один протеом: Идентификатор протеома: UP000000798 Статус протеома: Эталонный протеом (Reference proteome)
Протеом не является избыточным и не был удалён, он активен и соответствует референсной сборке.
Поскольку протеом UP000000798 уже имеет статус Reference proteome, дополнительный поиск референсного протеома того же вида не потребовался. Тем не менее, для иллюстрации процедуры был выполнен расширенный поиск по базе Proteomes:
Таксономический идентификатор Acidithiobacillus ferrooxidans ATCC 23270 по базе UniProt Taxonomy: TaxID 243159.
Поисковый запрос в Proteomes: taxonomy_id:243159 AND reference:yes
Найден тот же протеом UP000000798.
Файл с белковыми записями был скачан с помощью команды:
curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000000798' > UP000000798.swiss.gz
В формате UniProtKB поле FT (Features) содержит аннотации локальных особенностей. Ключ HELIX обозначает альфа-спирали, ключ TRANSMEM — трансмембранные участки. Написан скрипт Python для подсчёта записей, содержащих хотя бы один ключ HELIX и хотя бы один TRANSMEM.
Результаты
Белков, содержащих альфа-спирали: 271
Белков, содержащих трансмембранные участки: 131
Количество трансмембранных участков больше чем вдвое меньше, чем участков с альфа-спиралями. Результаты оценки удачны, они отражают реальные биологические закономерности
Для оценки числа ферментов использовались два подхода на сайте UniProt (поиск в базе UniProtKB, ограниченной протеомом UP000000798). И скрипт на Python
По полю cc_catalytic_activity (каталитическая активность)
Запрос: (proteome:UP000000798) AND (cc_catalytic_activity:*)
Результат: 520 записей
Запрос: ((proteome:UP000000798) AND (ec:*)) OR ((proteome:UP000000798) AND (cc_catalytic_activity:*)) AND (protein_name:*ase)
Результат: 517 записей
Поиск скриптом "CATALYTIC ACTIVITY" в "СС"Результат: 519 записей
Поскольку все способы дали примерно одинаковый результат, то можно считать, что у этой бактерии около 520 ферментов. Это не очень много, но учитывая, что у нее всего ~1500 белков, достаточно