При поиске протеома, соответствующего геномной сборке Clostridium tetani E88 (бактерии, изучаемой мною в первом семестре), используя запрос по UniProt Proteomes: (genome_assembly:GCA_000007625.1) был выдан единственный референсный протеом. Ниже перечислены его идентификаторы:
1) Идентификатор последней версии сборки RefSeq: GCF_000007625.1
2) Ссылка на страницу сборки в базе NCBI Datasets Genome: GCF_000007625.1
3) Идентификатор последней версии сборки в INSDC: GCA_000007625.1
4) Идентификатор протеома : UP000001412
5) Статус протеома: Reference proteomes
При поиске референсного протеома, наиболее близкого к протеому изучаемой бактерии, по базе UniProt Proteomes был создан запрос с TaxID бактерии Clostridium tetani E88 : (taxonomy_id:212717) и одновременно было поставлено ограничение по статусу протеома (proteome_type:1), который выдал единственный референсный протеом, описанный выше.
Поисковый запрос: (taxonomy_id:212717 and proteome_type:1)
Поиск референсного протеома для родственной бактерии того же вида Clostridium tetani при запросе (taxonomy_id:1513 and proteome_type:1) выдал 1 протеом, описанный выше.
Родительским таксоном для бактерии Clostridium tetani E88 , согласно базе Taxonomy, является род Clostridium (taxonomy_id:1485 and proteome_type:1), для которого результатом поиска стало 134 референсных протеомов. Из представленных в результате поиска референсных протеомов был выбран протеом бактерии Clostridium botulinum , поскольку данная бактерия тоже является патогенной, что вызывает особый интерес.
Status: Reference proteomes
ProteomeID: UP000001986
Organism: Clostridium botulinum
TaxonID: 441771
Proteincount: 3590
Для скачивания белковых записей данного протеома была использована команда:
wget 'https://rest.uniprot.org/uniprotkb/stream?compessed=true&format=txt&query=proteome:UP000001986' -O UP000001986.swiss.gz
По наличию ключа (HELIX) в поле FT, соответствующего альфа-спиралям белков, и ключа (TRANSMEM) в поле FT, соответствующего трансмембранным участкам, было посчитано средствами bash количество записей, которые содержат альфа-спирали и трансмембранные участки.
Команда bash:
zcat UP000001986.swiss.gz | grep -E '^(ID|FT HELIX)' | grep -B1 '^FT HELIX' | grep '^ID' | sort -u | wc -l
Результат: 1 белок имеет альфа-спирали
Команда bash:
zcat UP000001986.swiss.gz | grep -E '^(ID|FT TRANSMEM)' | grep -B1 '^FT TRANSMEM' | grep '^ID' | sort -u | wc -l
Результат: 846 белков имеют трансмембранные участки
Результаты не совсем совпадают с ожидаемыми, поскольку трансмембранные участки чаще всего являются (хоть и не всегда) альфа-спиралями. Следовательно, предполагалось получить количество белков, имеющих альфа-спирали большим или равным количеству белков, имеющих трансмембранные участки. Возможно, это связано с тем, что при выделении белка из организма достаточно легко установить его местоположение в бактерии и его функцию, следовательно, легко добавить выделенному белку пометку о наличии трансмембранных участках. Установить же структуру белка достаточно сложно, поэтому плохо изученные белки не имеют пометки о наличии в них альфа-спиралей, хотя, вероятно, они входят в их состав.
1 поиск. Для оценки количества ферментов в протеоме был осуществлен поисковый запрос на сайте UniProtKB: (proteome: UP000001986 and ec:*), результатом которого стал 761 белок.
2 поиск. Был осуществлен средствами bash.
Команда bash:
zcat UP000001986.swiss.gz | grep -c '^CC \-\!\- CATALYTIC ACTIVITY'
Результат: 641 белок
Из полученных результатов можно сделать вывод, что не для всех белков, обладающих ферментативной активностью и имеющих код EC, в записи имеется пометка в поле CC, что данный белок обладает каталитической активностью. Поэтому полагаю, что поиск по коду EC является более достоверным.