Практикум 8: Анализ протеомаMycoplasmopsis pulmonis

Поиск протеома, соответствующего геномной сборке

В мини-обзоре бактерии Mycoplasmopsis pulmonis мною была использована геномная сборка GCF_900660575.1

Ссылка на страницу сборки в базе NCBI Datasets Genome: https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_900660575.1/

Идентификаторы последней версии сборки:
RefSeq: GCF_900660575.1
GenBank: GCA_900660575.1

Для нахождения протеома, соответствующего данной геномной сборке в UniProt был составлен запрос в UniProt Proteomes: genome_assembly:GCA_900660575.1. В результате был найден протеом UP000290699, являющийся исключённым.

Поиск и скачивание референсного протеома

При поиске по таксону (taxonomy_id:2107) в UniProt Proteomes находятся три протеома, в том числе протеом штамма UAB CTIP (UP000000528), являющийся референсным. Для скачивания данного протеома использовался запрос proteome:UP000000528 в команде:

curl https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000000528) > UP000000528.swiss.gz

Оценка числа белков, содержащих альфа-спирали

Для оценки числа альфа-спиралей и трансмембранных участков использовался конвейер bash.

В результате работы конвейера было найдено 0 белков с альфа-спиралями и 178 с трансмембранными участками. Такое кардинальное различие в значениях можно объяснить тем, что аннотация вторичной структуры в UniProt более требовательна к качеству данных: если аннотацию трансмембранных элементов можно написать на основании длинных участков, состоящих из гидрофобных аминокислот, то для указания ключа HELIX требуется экспериментальное выяснение вторичной структуры. В пользу этой версии также говорит тот факт, что при поиске в UniProt по трансмембранным участкам (UP000000528 AND (ft_transmem:*)) большая часть найденных белков (171 из 178) являются аннотированными автоматически.

Оценка количества ферментов в протеоме

Для оценки количества ферментов в протеоме было применено три подхода. Первый подход заключался в поиске по EC номеру, который должен присваиваться всем ферментам ((proteome:UP000000528) AND (ec:*)). Этот подход обнаружил 227 предполагаемых ферментов. Второй подход — через слова, указывающие на класс фермента в поле KW ((proteome:UP000000528) AND ((keyword:KW-0560) OR (keyword:KW-0808) OR (keyword:KW-1278) OR (keyword:KW-0456) OR (keyword:KW-0378) OR (keyword:KW-0436) OR (keyword:KW-0413))) выдал 260 результатов, и третий — через поиск по наличию поля CC ((proteome:UP000000528) AND (cc_catalytic_activity:*)) выдал 158 результатов. При этом все три подхода выдают довольно близкие количества записей ферментов, относящихся к SwissProt (105, 106 и 94 соответственно), и довольно значимо различающиеся количества записей, относящихся к TrEMBL. Комбинация первых двух запросов выдаёт результат в 225 записей, 105 из которых относятся к SwissProt. Стабильность количества записей SwissProt, на мой взгляд, является довольно хорошим маркером достоверной оценки, даже при определенных различиях в числе записей TrEMBL. На мой взгляд, наиболее достоверной оценкой является 225-227 ферментов на геном Mycoplasmopsis pulmonis