UniProt Proteomes, EMBOSS
Поиск протеома, соответствующего геномной сборке
В одной из работ первого семестра использовалась геномная сборка бактерии Actinomyces faecalis, ниже приведена некоторая информация о протеоме.
- ID в базе данных RefSeq: GCF_013184985.2
- Идентификатор сборки INSDC: GCA_013184985.2
В поисковый запрос UniProt Proteomes был введен идентификатор INSDC вида GCA_xxxxxxxxx. Результаты не были найдены, поэтому будем рассматривать геномные сборки бактерии того же рода Actinomyces.
Поиск и скачивание референсного протеома
Используя поиск по роду Actinomyces было найдено 203 протеома с референсным статусом (запрос: (taxonomy_id:1654)AND(proteome_type:reference)). Был выбран организм с названием Actinomyces bowdenii | OH5050 (F0489) (ID 131109).
- Идентификатор протеома в базе Proteomes: UP000271272
- Идентификатор последней версии сборки INSDC: GCA_003860075.1
- Ссылка на страницу из базы NCBI Datasets Genome: Genome assembly ASM386007v1
- Для протеома указан стандартный CPD, т.е. у этой бактерии количество белков является стандартным значением в этом таксоне.- Команда для скачивания протеома: wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28%28proteome%3AUP000271272%29%29' -O UP000271272.swiss.gz
Оценка количества ферментов в протеоме
Для поиска белков, обладающих ферментативной активностью, из протеома Actinomyces bowdenii использовался запрос в UniProtKB, приведенный ниже:
(proteome:UP000271272) AND (ec:* OR "catalytic activity"). Поиск выдал 562 результата
Фильтр ec* будет выбирать только те белки, которые имеют официальный номер фермента, то есть, которые прошли классификацию. В свою очередь, catalytic activity будет выводить белки, у которых каталитическая активность возможно подтверждена экспериментально, но официально классификация не закреплена.
Использование данных критериев поиска обеспечивает точность и полноту результатов. Т.к. catalytic activity не гарантирует, что белок — настоящий фермент, а ec* может пропускать неклассифицированные ферменты
Чтобы найти белки с ферментативной активностью также можно воспользоваться командной строкой. Конвейер в Bash: zcat UP000271272.swiss.gz | grep -c 'CATALYTIC ACTIVITY'
Запрос выдал 507 результатов
Такое различие в результатах между поиском в UniProt и командой Bash может обуславливаться тем, что Catalytic activity указывает на каталитическую активность, но у белков с известной классификацией присутствует блок EC*, который в конвейере Bash не был учтен.
Анализ протеома консольными средствами
С помощью конвейера Bash (указан ниже) можно определить белок, имеющий наибольшую длину. Выдача - A0A3P1UZM7_9ACTO 3193. Первое значение является идентификатором белка, второе - длина белка (в аминокислотах). Если ввести идентификатор в поисковый запрос UniProtKB, то мы сможем получить более детальную информацию о белке. Его название DUF1729 domain-containing protein, и он дейстивтлеьно состоит из 3193 аминокислоты. Для сравнения найдем белок с наименьшей длиной, используя тот же конвейер с небольшими правками (sort -nr заменить на sort -n). Выдача - A0A3P1USH4_9ACTO 29. Это белок с названием Ornithine carbamoyltransferase, состоящий всего из 29 аминокислот.
Конвейер: zcat UP000271272.swiss.gz | grep '^ID' | awk '{print $2, $4}' | sort -k2 -n | head -1
Таким образом, мы показали, что в протеоме содержатся белки с различной длиной, начиная от нескольких десятков аминокислот, заканчивая несклькими тысячами.