Протеомы и EMBOSS
Поиск протеома
Для того, чтобы найти протеом в базе данных UniProt, нам нужен идентификатор геномной сборки в RefSeq из таблицы локальных особенностей. С его помощью мы ищем ID протеома в INSDC используя поиск по базе Datasets Genome, и уже с помощью этого ID проводим поиск в базе UniProt Proteomes.
- Страница сборки в базе NCBI Datasets Genome
- Идентификатор в INSDC: GCA_000950575.1
- Идентификатор в RefSeq: GCF_000950575.1
- Поисковый запрос: (genome_assembly:GCA_000950575.1)
- Идентификатор протеома: UP000061839
- Статус протеома: Reference proteome
Скачивание референсного протеома
Для поиска протеома был составлен следующий поисковый запрос: (taxonomy_id:1618207) AND (proteome_type:1). По этому запросы был получен протеом, описанный в прошлом пункте. Для скачивания белковых записей из него использовалась команда:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000061839)'' > UP000061839.swiss.gz
Оценка количества белков, содержащих альфа-спирали, и ферментов
Было получено 600 записей с трансмембранными участками и 0 с альфа-сприалями. Так как большинство записей аннотированно автоматически и их существование предполагается исходя из гомологии либо просто предсказано, то часть альфа-спиралей могла быть автоматически аннотированна как трансмембранные участки.
Скрипты в Colab
Для того, чтобы оценить количество ферментов в протеоме можно воспользоваться продвинутым поиском в UniProtKB.
- (proteome:UP000061839) AND ((ec:*) OR (cc_catalytic_activity:*))
606 результатов
- (proteome:UP000061839) AND (protein_name:*ase)
1521 результат
Первый запрос выдает более строгую оценку, так как ищет записи, где указан либо EC, либо катализируемая реакция. Второй запрос дает менее точную оценку, так как некоторые белки, имеющие ферментативную активность, не оканчиваются на -ase. Но при всем этом второй запрос дает большее количество результатов, чем первый. Возможно, это связано с тем, что большая часть записей в протеоме имеют уровень protein existence 4 (predicted), из-за чего они плохо аннотированы и не имеют записей о EC и катализируемой реакции.