Для идентификации протеома в базе данных UniProt, соответствующего геномной сборке Thermoactinomyces vulgaris, первым шагом стал переход на страницу сборки в NCBI Datasets.
Для сборки были полученны следующие индитификаторы:
(genome_assembly:GCA_005886755.1)
Найден протеом с индентификатором UP000308107.
"Other proteome" (не референсный и не избыточный). Протеом не является избыточным и не был удален из базы данных. Для Thermoactinomyces vulgaris в базе NCBI представлено 9 сборок на уровне генома.
Был проведён поиск референсного протеома, наиболее близкого к протеому UP000308107. В процессе работы было установлено, что для Thermoactinomyces vulgaris (TaxID: 2026) существуют референсные протеомы, и был выбран наиболее качественный из них.
С помощью базы UniProt Taxonomy по названию "Thermoactinomyces vulgaris" был найден TaxID: 2026.
(taxonomy_id:2026) AND (proteome_type:1)
Найден референсный протеом с идентификатором UP000641910.
С помощью REST API UniProt были скачаны все белковые записи, принадлежащие этому протеому, в формате swiss. Для получения уже сжатого gzip-файла использовался параметр compressed=true.
Для анализа структуры белков был разработан конвейер команд bash, который подсчитывает количество записей в скачанном файле UP000641910.swiss.gz, содержащих аннотации об альфа-спиралях и трансмембранных участках.
В соответствии с документацией UniProt, в поле FT (Feature Table):
В процессе работы было установлено, что в файле строки FT имеют следующий формат:
Для надежного подсчета, не зависящего от количества пробелов, был использован универсальный awk-конвейер.
Подсчет записей с альфа-спиралями (HELIX) в поле FT
zcat ~/term2/pr8/UP000641910.swiss.gz | awk '/^ID / {id=$2} /^FT[ \t]+HELIX/ && id {helix[id]=1} END {print length(helix)}'
Подсчет записей с трансмембранными участками (TRANSMEM) в поле FT
zcat ~/term2/pr8/UP000641910.swiss.gz | awk '/^ID / {id=$2} /^FT[ \t]+TRANSMEM/ && id {transmem[id]=1} END {print length(transmem)}'
В протеоме UP000641910 отсутствуют аннотации вторичной структуры в поле FT для ключей HELIX и TRANSMEM. Это не означает, что в белках данного организма нет альфа-спиралей или трансмембранных участков — они, безусловно, присутствуют. Отсутствие аннотаций объясняется тем, что:
Таким образом, полученные нулевые значения отражают не биологическую реальность, а неполноту аннотаций в данной версии протеома. Для более содержательного анализа следовало бы использовать протеом с более полной аннотацией (например, референсный протеом другого штамма или близкого вида).
Для оценки доли ферментов в протеоме UP000641910 были использованы два подхода, основанных на различных полях записей UniProtKB.
Основан на наличии в записи номера фермента (EC number), который присваивается только белкам с доказанной ферментативной активностью и заносится в соответствующее поле.
Поисковый запрос (в базе UniProtKB):
(proteome:UP000641910) AND (ec:*)
Использует наличие в комментариях (поле CC) описания каталитической активности (CATALYTIC ACTIVITY), которое может присутствовать у ферментов даже при отсутствии официального EC номера.
Поисковый запрос (в базе UniProtKB):
(proteome:UP000641910) AND (cc_catalytic_activity:*)
Выполнив указанные запросы на сайте UniProt, были получены следующие результаты:
(proteome:UP000641910) AND (ec:*) - 667
(proteome:UP000641910) AND (cc_catalytic_activity:*) - 569
Обе оценки являются приблизительными снизу, так как:
Разница в полученных числах (если она есть) объясняется тем, что некоторые ферменты имеют текстовое описание каталитической активности, но формальный EC номер им еще не присвоен, или наоборот — EC номер присвоен, но текстовое описание отсутствует.
Наиболее полную оценку можно получить, объединив оба критерия:
(proteome:UP000641910) AND (ec:* OR cc_catalytic_activity:*)
Этот запрос позволит охватить белки, у которых есть хотя бы одно из двух свидетельств ферментативной активности, и даст более точную оценку числа ферментов в протеоме.