UniProt Proteomes, EMBOSS

Поиск протеома, соответствующего геномной сборке

Cсылка на страницу сборки в базе NCBI Datasets Genome

Идентификатор последней версии сборки в INSDC (GenBank): GCA_000009205.2

Идентификатор последней версии сборки в RefSeq: GCF_000009205.2

Поисковый запрос: (genome_assembly:GCA_000009205.2)

Идентификатор протеома: UP000001978

Статус протеома: Other proteome


Поиск и скачивание референсного протеома

Так как статус протеома моей бактерии - Other proteome, мне потребовалось осуществлять поиск референсного протеома того же вида, его TaxID - 1496, поисковой запрос: (proteome_type:1) AND (taxonomy_id:1496). Был получен 1 результат.

Затем с помощью команды wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP001510562)' -O UP001510562.swiss.gz был скачан файл с белковыми записями.


Оценка числа белков, содержащих альфа-спирали

В результате анализа файла референсного протеома UP001510562.swiss.gz с помощью конвейеров

zgrep -e '^ID' -e '^FT *HELIX' UP001510562.swiss.gz | grep -B1 'HELIX' | grep '^ID' | wc -l

zgrep -e '^ID' -e '^FT *TRANSMEM' UP001510562.swiss.gz | grep -B1 'TRANSMEM' | grep '^ID' | wc -l

было установлено, что количество записей, содержащих ключ HELIX и TRANSMEM в поле FT, равно 0.

Это связано с тем, что данный протеом оказался дефектным, в нем большая часть белков не имеет FT вообще.

В связи с этим мне пришлось провести оценку и для протеома из первого задания (UP000001978.swiss.gz):

zgrep -e '^ID' -e '^FT *HELIX' UP000001978.swiss.gz | grep -B1 'HELIX' | grep '^ID' | wc -l

zgrep -e '^ID' -e '^FT *TRANSMEM' UP000001978.swiss.gz | grep -B1 'TRANSMEM' | grep '^ID' | wc -l

По результатам работы конвейера получились следующие значения:

Это выглядит, как противоречие, потому что трансмембранные участки бактериальных белков чаще всего представляют из себя альфа-спирали. Соответственно, белков с ключом HELIX должно быть больше, чем с TRANSMEM, но получилось наоборот. Эта странность, видимо, связана с тем, как наполняется база UniProt: большинство белков в выбранном протеоме UP000001978 относятся к секции TrEMBL, то есть они аннотированы автоматически компьютером, а не вручную. Наличие трансмембранных доменов (TRANSMEM) компьютерные программы умеют определять достаточно точно по гидрофобности аминокислот, поэтому эта разметка стоит у огромного числа белков. Локальные особенности HELIX (конкретные границы обычных спиралей) переносятся в файл в основном из базы PDB, когда для белка экспериментально найдена 3D-структура, либо при ручном разборе кураторами. Конкретно над этим организмов у ученых, по-видимому, ещё не велись активные работы, поэтому проверенных спиралей всего 12. Таким образом, оценку числа альфа-спиралей по ключу HELIX нельзя назвать удачной — она сильно занижена из-за неполноты экспериментальных данных в базе. Оценка по TRANSMEM гораздо ближе к реальности для мембранных белков, но она не учитывает спирали в водорастворимых белках, которые находятся внутри клетки.


Оценка количества ферментов в протеоме

Были составлены два поисковых запроса на сайте UniProt, использующие разные поля белковых записей для оценки общего числа ферментов в протеоме UP000001978 (всего в протеоме 3762 белка).

Между двумя результатами обнаружилась заметная разница: по EC-номерам нашлось почти в два раза больше белков (1089), чем по заполненному полю каталитической активности (568). Тем не менее, обе оценки показывают, что ферменты составляют значительную часть протеома (от 15% до 29%).

Такое расхождение связано с техническими особенностями аннотации в UniProt:

  1. Запрос по ec:* дает максимально широкую оценку. В TrEMBL белкам присваиваются общие коды EC просто по сходству доменов с известными семействами.
  2. Запрос по cc_catalytic_activity:* работает строже. Поле комментариев CATALYTIC ACTIVITY заполняется только тогда, когда для белка удается четко прописать конкретную химическую реакцию. Для многих автоматически предсказанных белков в TrEMBL такое детальное описание реакции в базу еще не добавлено.

Таким образом, первая оценка по EC-номерам лучше отражает общий метаболический потенциал бактерии (включая слабоизученные ферменты), а вторая оценка по полю комментариев является более надежной, так как учитывает только белки с детально аннотированной реакцией.