Практикум 8. UniProt Proteomes, EMBOSS

Поиск протеома, соответствующего геномной сборке Clostridium tetani E88 ASM762v1

При поиске протеома, соответствующего геномной сборке Clostridium tetani E88 (бактерии, изучаемой мною в первом семестре), используя запрос по UniProt Proteomes: (genome_assembly:GCA_000007625.1) был выдан единственный референсный протеом. Ниже перечислены его идентификаторы:

1) Идентификатор последней версии сборки RefSeq: GCF_000007625.1

2) Ссылка на страницу сборки в базе NCBI Datasets Genome: GCF_000007625.1

3) Идентификатор последней версии сборки в INSDC: GCA_000007625.1

4) Идентификатор протеома : UP000001412

5) Статус протеома: Reference proteomes


Поиск и скачивание референсного протеома

При поиске референсного протеома, наиболее близкого к протеому изучаемой бактерии, по базе UniProt Proteomes был создан запрос с TaxID бактерии Clostridium tetani E88 : (taxonomy_id:212717) и одновременно было поставлено ограничение по статусу протеома (proteome_type:1), который выдал единственный референсный протеом, описанный выше.

Поисковый запрос: (taxonomy_id:212717 and proteome_type:1)

Поиск референсного протеома для родственной бактерии того же вида Clostridium tetani при запросе (taxonomy_id:1513 and proteome_type:1) выдал 1 протеом, описанный выше.

Родительским таксоном для бактерии Clostridium tetani E88 , согласно базе Taxonomy, является род Clostridium (taxonomy_id:1485 and proteome_type:1), для которого результатом поиска стало 134 референсных протеомов. Из представленных в результате поиска референсных протеомов был выбран протеом бактерии Clostridium botulinum , поскольку данная бактерия тоже является патогенной, что вызывает особый интерес.

Status: Reference proteomes

ProteomeID: UP000001986

Organism: Clostridium botulinum

TaxonID: 441771

Proteincount: 3590

Результат поиска
Рис.1. Результат поиска.

Для скачивания белковых записей данного протеома была использована команда:

 wget 'https://rest.uniprot.org/uniprotkb/stream?compessed=true&format=txt&query=proteome:UP000001986' 
-O UP000001986.swiss.gz 

Оценка числа белков, содержащих альфа-спирали

По наличию ключа (HELIX) в поле FT, соответствующего альфа-спиралям белков, и ключа (TRANSMEM) в поле FT, соответствующего трансмембранным участкам, было посчитано средствами bash количество записей, которые содержат альфа-спирали и трансмембранные участки.

Команда bash:

 zcat UP000001986.swiss.gz | grep -E '^(ID|FT   HELIX)' | grep -B1 '^FT   HELIX' | grep '^ID' | sort -u | 
wc -l 

Результат: 1 белок имеет альфа-спирали

Команда bash:

 zcat UP000001986.swiss.gz | grep -E '^(ID|FT   TRANSMEM)' | grep -B1 '^FT   TRANSMEM' | grep '^ID' | 
sort -u | wc -l 

Результат: 846 белков имеют трансмембранные участки

Результаты не совсем совпадают с ожидаемыми, поскольку трансмембранные участки чаще всего являются (хоть и не всегда) альфа-спиралями. Следовательно, предполагалось получить количество белков, имеющих альфа-спирали большим или равным количеству белков, имеющих трансмембранные участки. Возможно, это связано с тем, что при выделении белка из организма достаточно легко установить его местоположение в бактерии и его функцию, следовательно, легко добавить выделенному белку пометку о наличии трансмембранных участках. Установить же структуру белка достаточно сложно, поэтому плохо изученные белки не имеют пометки о наличии в них альфа-спиралей, хотя, вероятно, они входят в их состав.


Оценка количества ферментов в протеоме

1 поиск. Для оценки количества ферментов в протеоме был осуществлен поисковый запрос на сайте UniProtKB: (proteome: UP000001986 and ec:*), результатом которого стал 761 белок.

2 поиск. Был осуществлен средствами bash.

Команда bash:

 zcat UP000001986.swiss.gz | grep -c '^CC   \-\!\- CATALYTIC ACTIVITY' 

Результат: 641 белок

Из полученных результатов можно сделать вывод, что не для всех белков, обладающих ферментативной активностью и имеющих код EC, в записи имеется пометка в поле CC, что данный белок обладает каталитической активностью. Поэтому полагаю, что поиск по коду EC является более достоверным.