UniProt Proteomes, EMBOSS
Поиск протеома, соответствующего геномной сборке
Cсылка на страницу сборки в базе NCBI Datasets Genome
Идентификатор последней версии сборки в INSDC (GenBank): GCA_000009205.2
Идентификатор последней версии сборки в RefSeq: GCF_000009205.2
Поисковый запрос: (genome_assembly:GCA_000009205.2)
Идентификатор протеома: UP000001978
Статус протеома: Other proteome
Поиск и скачивание референсного протеома
Так как статус протеома моей бактерии - Other proteome, мне потребовалось осуществлять поиск референсного протеома того же вида, его TaxID - 1496, поисковой запрос: (proteome_type:1) AND (taxonomy_id:1496). Был получен 1 результат.
Затем с помощью команды wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP001510562)' -O UP001510562.swiss.gz был скачан файл с белковыми записями.
Оценка числа белков, содержащих альфа-спирали
В результате анализа файла референсного протеома UP001510562.swiss.gz с помощью конвейеров
zgrep -e '^ID' -e '^FT *HELIX' UP001510562.swiss.gz | grep -B1 'HELIX' | grep '^ID' | wc -l
zgrep -e '^ID' -e '^FT *TRANSMEM' UP001510562.swiss.gz | grep -B1 'TRANSMEM' | grep '^ID' | wc -l
было установлено, что количество записей, содержащих ключ HELIX и TRANSMEM в поле FT, равно 0.
Это связано с тем, что данный протеом оказался дефектным, в нем большая часть белков не имеет FT вообще.
В связи с этим мне пришлось провести оценку и для протеома из первого задания (UP000001978.swiss.gz):
zgrep -e '^ID' -e '^FT *HELIX' UP000001978.swiss.gz | grep -B1 'HELIX' | grep '^ID' | wc -l
zgrep -e '^ID' -e '^FT *TRANSMEM' UP000001978.swiss.gz | grep -B1 'TRANSMEM' | grep '^ID' | wc -l
По результатам работы конвейера получились следующие значения:
- Белки с аннотированными альфа-спиралями (HELIX) — 12
- Белки с трансмембранными участками (TRANSMEM) — 875
Это выглядит, как противоречие, потому что трансмембранные участки бактериальных белков чаще всего представляют из себя альфа-спирали. Соответственно, белков с ключом HELIX должно быть больше, чем с TRANSMEM, но получилось наоборот. Эта странность, видимо, связана с тем, как наполняется база UniProt: большинство белков в выбранном протеоме UP000001978 относятся к секции TrEMBL, то есть они аннотированы автоматически компьютером, а не вручную. Наличие трансмембранных доменов (TRANSMEM) компьютерные программы умеют определять достаточно точно по гидрофобности аминокислот, поэтому эта разметка стоит у огромного числа белков. Локальные особенности HELIX (конкретные границы обычных спиралей) переносятся в файл в основном из базы PDB, когда для белка экспериментально найдена 3D-структура, либо при ручном разборе кураторами. Конкретно над этим организмов у ученых, по-видимому, ещё не велись активные работы, поэтому проверенных спиралей всего 12. Таким образом, оценку числа альфа-спиралей по ключу HELIX нельзя назвать удачной — она сильно занижена из-за неполноты экспериментальных данных в базе. Оценка по TRANSMEM гораздо ближе к реальности для мембранных белков, но она не учитывает спирали в водорастворимых белках, которые находятся внутри клетки.
Оценка количества ферментов в протеоме
Были составлены два поисковых запроса на сайте UniProt, использующие разные поля белковых записей для оценки общего числа ферментов в протеоме UP000001978 (всего в протеоме 3762 белка).
-
Поисковый запрос №1 (по полю классификации EC):
(ec:*) AND (proteome:UP000001978)
Количество находок: 1089 белков. -
Поисковый запрос №2 (по полю комментариев CC):
(cc_catalytic_activity:*) AND (proteome:UP000001978)
Количество находок: 568 белков.
Между двумя результатами обнаружилась заметная разница: по EC-номерам нашлось почти в два раза больше белков (1089), чем по заполненному полю каталитической активности (568). Тем не менее, обе оценки показывают, что ферменты составляют значительную часть протеома (от 15% до 29%).
Такое расхождение связано с техническими особенностями аннотации в UniProt:
- Запрос по
ec:*дает максимально широкую оценку. В TrEMBL белкам присваиваются общие коды EC просто по сходству доменов с известными семействами. - Запрос по
cc_catalytic_activity:*работает строже. Поле комментариевCATALYTIC ACTIVITYзаполняется только тогда, когда для белка удается четко прописать конкретную химическую реакцию. Для многих автоматически предсказанных белков в TrEMBL такое детальное описание реакции в базу еще не добавлено.
Таким образом, первая оценка по EC-номерам лучше отражает общий метаболический потенциал бактерии (включая слабоизученные ферменты), а вторая оценка по полю комментариев является более надежной, так как учитывает только белки с детально аннотированной реакцией.