Идентификатор моего протеома из миниобзора в RefSeq выглядел так: GCF_003935895.2 (ссылка на страницу NCBI Datasets Genome). Соответственно, геномная сборка INSDC: GCA_003935895.2. По запросу genome_assembly:GCA_003935895.2 в Uniprot нашелся только один избыточный протеом (UP000288527, redundant to UP000295530, protein count - 4,329).
По поиску через TaxID:Scandinavium goeteborgense нашелся только один референсный протеом, тот самый в пользу которого UP000288527 был избыточен. ProteomID: UP000295530, protein count - 4,446. Итоговый запрос в расширенном поиске: (taxonomy_id:1851514) AND (proteome_type:1)
Команда для скачивания:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28taxonomy_id%3A1851514%29+AND+%28proteome_type%3A1%29' -O UP000295530.swiss.gz
Поиск на сайте Uniprot привел к таким результатам:
| Запросы |
Выдача |
| (proteome:UP000295530) AND (ec:*) |
1146 |
| (proteome:UP000295530) AND (cc_catalytic_activity:*) |
1108 |
| (proteome:UP000295530) AND (cc_catalytic_activity:*) AND (ec:*) |
1052 |
Видно, что результаты поиска по "ec" и "catalytic activity" не совпадают. По третьему вопросу узнаем, что среди всех находок по "ec" только 1052 также имеют в описании "catalytic activity". Можно предположить, что есть белки классифицирующиеся как ферменты, но не имеющие каталитической активности. Думаю, надежнее всего будет взять оценку по "ec", так как белок, указанный как фермент, вряд ли будет таковым не являться.
Все результаты находятся в достаточно близком диапазоне. Eсли усреднить результат, выходит, что ферментов около 1102, примерно четверть от всего протеома.
Результаты конвейера bash zcat UP000295530.swiss.gz | grep '^DE' | grep -c 'EC=' | sort -u выдали результат 1212
Предполагаю, что разницу можно объяснить повторениями кода EC при присвоении белку нескольких, а не одного.
Я решила выяснить есть ли в протеоме белки, обеспечивающие устойчивость к антибиотикам для бактерии (резистентность часто вызвана либо мутациями, которые предотвращают связь антибиотиков с белком, или усилением гена кодирования белка), ведь Scandinavium goeteborgense является патогенной и, как многие из семейства Enterobacteriaceae, несёт переносимые маркеры устойчивости к антибиотикам. Также белок бактерии, который я выбирала для практикума №7 (QnrB96) защищает ДНК-гиразу и топоизомеразу-IV от воздействия хинолонов. При пятикратном увеличении минимальной ингибиторной концентрации(при экспрессиии гена в E.Coli) он обеспечивает снижение чуствительности к ципрофлоксацину. Следовательно, похожие белки могут присутствовать.
Воспользовавшись поиском конвейером bash по ключевому слову Antibiotic resistance [KW-0046]
zcat UP000295530.swiss.gz | grep '^KW.*Antibiotic resistance' | wc -l
я нашла 15 таких белков, что подтвердило мою гипотезу.