Поиск протеома, соответствующего геномной сборке

Работа проводилась с геномной сборкой бактерии Acidithiobacillus ferrooxidans ATCC 23270.

Ссылка на страницу сборки в базе NCBI Datasets Genome: тут

Идентификатор последней версии сборки в INSDC: GCA_000008625.1

Идентификатор последней сборки в RefSeq: GCF_000008625.1

Для поиска соответствующего протеома в базе UniProt Proteomes использовался запрос: proteome_type:1 AND assembly_id:GCA_000008625.1 (где proteome_type:1 означает референсный протеом).

Этот запрос выдал один протеом: Идентификатор протеома: UP000000798 Статус протеома: Эталонный протеом (Reference proteome)

Протеом не является избыточным и не был удалён, он активен и соответствует референсной сборке.


Поиск и скачивание референсного протеома

Поскольку протеом UP000000798 уже имеет статус Reference proteome, дополнительный поиск референсного протеома того же вида не потребовался. Тем не менее, для иллюстрации процедуры был выполнен расширенный поиск по базе Proteomes:

Таксономический идентификатор Acidithiobacillus ferrooxidans ATCC 23270 по базе UniProt Taxonomy: TaxID 243159.

Поисковый запрос в Proteomes: taxonomy_id:243159 AND reference:yes

Найден тот же протеом UP000000798.

Файл с белковыми записями был скачан с помощью команды:

curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000000798' > UP000000798.swiss.gz


Оценка числа белков, содержащих альфа-спирали и трансмембранные участки


В формате UniProtKB поле FT (Features) содержит аннотации локальных особенностей. Ключ HELIX обозначает альфа-спирали, ключ TRANSMEM — трансмембранные участки. Написан скрипт Python для подсчёта записей, содержащих хотя бы один ключ HELIX и хотя бы один TRANSMEM.

Результаты

Белков, содержащих альфа-спирали: 271

Белков, содержащих трансмембранные участки: 131

Количество трансмембранных участков больше чем вдвое меньше, чем участков с альфа-спиралями. Результаты оценки удачны, они отражают реальные биологические закономерности


Оценка количества ферментов в протеоме


Для оценки числа ферментов использовались два подхода на сайте UniProt (поиск в базе UniProtKB, ограниченной протеомом UP000000798). И скрипт на Python

По полю cc_catalytic_activity (каталитическая активность)

Запрос: (proteome:UP000000798) AND (cc_catalytic_activity:*)

Результат: 520 записей


Дополнительный запрос с уточнением по названию белка (наличие суффикса ase)

Запрос: ((proteome:UP000000798) AND (ec:*)) OR ((proteome:UP000000798) AND (cc_catalytic_activity:*)) AND (protein_name:*ase)

Результат: 517 записей

Поиск скриптом "CATALYTIC ACTIVITY" в "СС"

Результат: 519 записей


Поскольку все способы дали примерно одинаковый результат, то можно считать, что у этой бактерии около 520 ферментов. Это не очень много, но учитывая, что у нее всего ~1500 белков, достаточно