В мини-обзоре бактерии Mycoplasmopsis pulmonis мною была использована геномная сборка GCF_900660575.1
Ссылка на страницу сборки в базе NCBI Datasets Genome: https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_900660575.1/
Идентификаторы последней версии сборки:
RefSeq: GCF_900660575.1
GenBank: GCA_900660575.1
Для нахождения протеома, соответствующего данной геномной сборке в UniProt был составлен запрос в UniProt Proteomes:
genome_assembly:GCA_900660575.1.
В результате был найден протеом UP000290699, являющийся исключённым.
При поиске по таксону (taxonomy_id:2107) в UniProt Proteomes находятся три протеома, в том числе протеом штамма UAB CTIP (UP000000528), являющийся референсным.
Для скачивания данного протеома использовался запрос proteome:UP000000528 в команде:
curl https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000000528) > UP000000528.swiss.gz
Для оценки числа альфа-спиралей и трансмембранных участков использовался конвейер bash.
В результате работы конвейера было найдено 0 белков с альфа-спиралями и 178 с трансмембранными участками.
Такое кардинальное различие в значениях можно объяснить тем, что аннотация вторичной структуры в UniProt более требовательна к качеству данных: если аннотацию трансмембранных элементов можно написать на основании длинных участков, состоящих из гидрофобных аминокислот, то для указания ключа HELIX требуется экспериментальное выяснение вторичной структуры.
В пользу этой версии также говорит тот факт, что при поиске в UniProt по трансмембранным участкам (UP000000528 AND (ft_transmem:*)) большая часть найденных белков (171 из 178) являются аннотированными автоматически.
Для оценки количества ферментов в протеоме было применено три подхода.
Первый подход заключался в поиске по EC номеру, который должен присваиваться всем ферментам
((proteome:UP000000528) AND (ec:*)). Этот подход обнаружил 227 предполагаемых ферментов.
Второй подход — через слова, указывающие на класс фермента в поле KW
((proteome:UP000000528) AND ((keyword:KW-0560) OR (keyword:KW-0808) OR (keyword:KW-1278) OR (keyword:KW-0456) OR (keyword:KW-0378) OR (keyword:KW-0436) OR (keyword:KW-0413)))
выдал 260 результатов, и третий — через поиск по наличию поля CC
((proteome:UP000000528) AND (cc_catalytic_activity:*)) выдал 158 результатов.
При этом все три подхода выдают довольно близкие количества записей ферментов, относящихся к SwissProt (105, 106 и 94 соответственно), и довольно значимо различающиеся количества записей, относящихся к TrEMBL.
Комбинация первых двух запросов выдаёт результат в 225 записей, 105 из которых относятся к SwissProt. Стабильность количества записей SwissProt, на мой взгляд, является довольно хорошим маркером достоверной оценки, даже при определенных различиях в числе записей TrEMBL. На мой взгляд, наиболее достоверной оценкой является 225-227 ферментов на геном Mycoplasmopsis pulmonis