Практикум 8: UniProt Proteomes, EMBOSS

1. Поиск протеома, соответствующего геномной сборке

В прошлом семестре я работала с геномной сборкой бактерии Adhaeribacter radiodurans. В базе NCBI Datasets Genome эта сборка имеет следующую страницу:

Ссылка на страницу сборки:
https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_014075995.1/

Идентификаторы последней версии сборки:

INSDC (GenBank): GCA_014075995.1
RefSeq: GCF_014075995.1

Поисковый запрос по UniProt Proteomes:
genome_assembly:GCA_014075995.1

Результат поиска:

Идентификатор протеома: UP000514509
Статус протеома: Reference proteome

Статус «Reference proteome» означает, что данный протеом выбран UniProt в качестве референсного для вида Adhaeribacter radiodurans. Такой протеом считается наиболее качественно аннотированным и рекомендуется для использования в биоинформатических анализах. Протеом не является избыточным (не redundant) и не был удалён.

2. Поиск и скачивание референсного протеома

Исходя из информации, полученной при выполнении задания 1, геномная сборка Adhaeribacter radiodurans (GCF_014075995.1) имеет статус Reference proteome, а соответствующий ей протеом имеет идентификатор UP000514509. Таким образом, данный протеом сам является референсным и наиболее близким к протеому моего организма. Дополнительный поиск референсных протеомов среди других таксонов не требуется.

Тем не менее, для полноты процедуры и в соответствии с методическими указаниями, был выполнен формальный поиск в базе UniProt Proteomes. Сначала определён TaxID организма в базе UniProt Taxonomy:

TaxID:2745197

Поисковый запрос:
taxonomy_id:2745197 AND proteome_type:1

Результат поиска подтвердил, что единственным референсным протеомом для данного TaxID является UP000514509 (Adhaeribacter radiodurans). Следовательно, в качестве наиболее близкого референсного протеома выбран именно этот протеом.

Скачивание протеома через REST API:

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000514509' -O ~/term2/pr8/UP000514509.swiss.gz

Файл успешно скачан и размещён по пути ~/term2/pr8/UP000514509.swiss.gz.

3. Оценка числа белков, содержащих альфа-спирали

Для подсчёта количества белков с аннотациями HELIX и TRANSMEM был написан следующий скрипт на Python:

import gzip

file_path = "/home/students/y25/nmisureva/term2/pr8/UP000514509.swiss.gz"

helix = set()
transmem = set()
current = None

with gzip.open(file_path, "rt") as f:
    for line in f:
        if line.startswith("ID "):
            current = line.split()[1]
        if line.startswith("FT "):
            if "HELIX" in line:
                helix.add(current)
            if "TRANSMEM" in line:
                transmem.add(current)

print("HELIX:", len(helix))
print("TRANSMEM:", len(transmem))
print("HELIX и TRANSMEM:", len(helix & transmem))

Результат выполнения скрипта:

HELIX: 0
TRANSMEM: 940
HELIX и TRANSMEM: 0

Выводы:

Отсутствие белков с аннотацией HELIX объясняется тем, что для данного организма нет экспериментально определённых трёхмерных структур белков, необходимых для присвоения этого ключа. Наличие 940 белков с TRANSMEM связано с автоматическими предсказаниями трансмембранных доменов. Таким образом, аннотации в UniProtKB неполны, и отсутствие HELIX не означает отсутствия альфа-спиралей у белков протеома.

4. Оценка количества ферментов в протеоме

Для оценки числа ферментов в протеоме Adhaeribacter radiodurans (UP000514509) использованы два поисковых запроса.

Запрос 1 (по EC-номеру): proteome:UP000514509 AND ec:*
Результат: 787 белков. EC-номер является надёжным признаком ферментативной активности.

Запрос 2 (по CATALYTIC ACTIVITY): proteome:UP000514509 AND cc_catalytic_activity:*
Результат: 659 белков. Это поле описывает катализируемую реакцию.

Сравнение: Оценки различаются на 128 белков. Белки с EC-номером, но без описания каталитической активности, вероятно, аннотированы из старых или неполных источников.

Вывод: Наиболее достоверной оценкой является 787 ферментов (по EC-номеру), так как этот критерий более строгий и специфичный. Реальное количество ферментов может быть несколько выше, но не ниже этой цифры.

Отчёт по практикуму 8 | Мисюрёва Анастасия | 2026

Практикум 8: UniProt Proteomes, EMBOSS

Мисюрёва Анастасия | Факультет биоинженерии и биоинформатики МГУ

Adhaeribacter radiodurans

1. Поиск протеома, соответствующего геномной сборке

2. Поиск и скачивание референсного протеома

3. Оценка числа белков, содержащих альфа-спирали

4. Оценка количества ферментов в протеоме