Uniprot proteomes, EMBOSS.

1. Поиск протеома, соответствующего геномной сборке.

В прошлом семестре я работала с протеомом Simkania negevensis Z; найти его можно по ссылке:

Сборка в базе NCBI Datasets Genome.

Идентификаторы последней версии сборки в INSDC и RefSeq: GCF_000237205.1 и GCA_000237205.1, соотвественно.

Поисковый запрос по UniProt Proteomes, который выдал протеом:

Рис. 1. Поисковый запрос по UniProt Proteomes, который выдал протеом

Идентификатор протеома: UP000000496.

Статус протеома: референсный протеом.

2. Поиск и скачивание референсного протеома.

Протеом моей бактерии является референсным, поэтому сразу перехожу к скачиванию белковых записей. Полная команда, которую я использовала:

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28proteome%3AUP000000496%29' -O UP000000496.swiss.gz

3. Оценка числа белков, содержащих альфа-спирали.

В таблице локальных особенностей UniProtKB в после "FT" есть ключ, соответствующий альфа спиралям: "HELIX", а также ключ "TRANSMEM", соответствующий белкам, содержащим трансмембранные участки.

Скрипт на Python, который обрабатывает записи UniProtKB:

 
import gzip
input_file = gzip.open("UP000000496.swiss.gz", "rt")
proteins, s, transmembrane, helix = {}, "", 0, 0
for line in input_file:
    id = line.strip()
    if not line.startswith('ID '):
        s += line.strip()
    else:
        proteins[id] = s
        id = line.strip()
        s = ""
proteins[id] = s

for value in proteins.values():
    if 'FT' in value and ' TRANSMEM ' in value:
        transmembrane += 1
    elif 'FT' in value and ' HELIX ' in value:
        helix += 1
print(f'Количество белков, содержащих трансмембранные участки: {transmembrane}')
print(f'Количество белков, содержащих альфа-спирали: {helix}')

Количество белков, содержащих трансмембранные участки: 515
Количество белков, содержащих альфа-спирали: 0
    

Немного странный результат: отсуствуют аннотированные белки, содержащие альфа-спирали. Может быть, это из-за того, что данные экспериментальные, и такие белки просто не были аннотированы. Однако можно определить их число по количеству трансмембранных участков: чаще всего такие сегменты являются альфа-спиралями.

4. Оценка количества ферментов в протеоме.

1) Поиск с помощью поля function > catalytic activity(*):

Рис. 2. Поиск с помощью поля function > catalytic activity

Всего 349 белков из 2516 обладают каталитической активностью.

2) Поиск с помощью поля function > enzyme classification(*):

Рис. 3. Поиск с помощью поля function > enzyme classification

Всего 541 белков из 2516 обладают каталитической активностью.

Количество ферментов отличается, так как catalytic activity имеют белки, для которых найдена катализируемая реакция. Если же белок имеет предсказанную ферментивную активность, но реакция еще не найдена, то enzyme classification все равно будет определена.

Запрос ниже выдает белки для которых есть данные и по enzyme classification, и по catalytic activity:

(proteome:UP000000496) AND (ec:*) AND (cc_catalytic_activity:*)

Найдено 330 белков, в целом гипотеза верна: белки, для которых найдена катализируемая реакция имеют и enzyme classification, и catalytic activity. Таким образом, более точную оценку можно получить последним поисковым запросом.