В прошлом семестре я работала с протеомом Simkania negevensis Z; найти его можно по ссылке:
Сборка в базе NCBI Datasets Genome.
Идентификаторы последней версии сборки в INSDC и RefSeq: GCF_000237205.1 и GCA_000237205.1, соотвественно.
Поисковый запрос по UniProt Proteomes, который выдал протеом:
Идентификатор протеома: UP000000496.
Статус протеома: референсный протеом.
Протеом моей бактерии является референсным, поэтому сразу перехожу к скачиванию белковых записей. Полная команда, которую я использовала:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28proteome%3AUP000000496%29' -O UP000000496.swiss.gz
В таблице локальных особенностей UniProtKB в после "FT" есть ключ, соответствующий альфа спиралям: "HELIX", а также ключ "TRANSMEM", соответствующий белкам, содержащим трансмембранные участки.
Скрипт на Python, который обрабатывает записи UniProtKB:
import gzip
input_file = gzip.open("UP000000496.swiss.gz", "rt")
proteins, s, transmembrane, helix = {}, "", 0, 0
for line in input_file:
id = line.strip()
if not line.startswith('ID '):
s += line.strip()
else:
proteins[id] = s
id = line.strip()
s = ""
proteins[id] = s
for value in proteins.values():
if 'FT' in value and ' TRANSMEM ' in value:
transmembrane += 1
elif 'FT' in value and ' HELIX ' in value:
helix += 1
print(f'Количество белков, содержащих трансмембранные участки: {transmembrane}')
print(f'Количество белков, содержащих альфа-спирали: {helix}')
Количество белков, содержащих трансмембранные участки: 515
Количество белков, содержащих альфа-спирали: 0
Немного странный результат: отсуствуют аннотированные белки, содержащие альфа-спирали. Может быть, это из-за того, что данные экспериментальные, и такие белки просто не были аннотированы. Однако можно определить их число по количеству трансмембранных участков: чаще всего такие сегменты являются альфа-спиралями.
1) Поиск с помощью поля function > catalytic activity(*):
Всего 349 белков из 2516 обладают каталитической активностью.
2) Поиск с помощью поля function > enzyme classification(*):
Всего 541 белков из 2516 обладают каталитической активностью.
Количество ферментов отличается, так как catalytic activity имеют белки, для которых найдена катализируемая реакция. Если же белок имеет предсказанную ферментивную активность, но реакция еще не найдена, то enzyme classification все равно будет определена.
Запрос ниже выдает белки для которых есть данные и по enzyme classification, и по catalytic activity:
(proteome:UP000000496) AND (ec:*) AND (cc_catalytic_activity:*)
Найдено 330 белков, в целом гипотеза верна: белки, для которых найдена катализируемая реакция имеют и enzyme classification, и catalytic activity. Таким образом, более точную оценку можно получить последним поисковым запросом.