Практикум 8 — анализ протеома Desulfotalea psychrophila LSv54

Рогачевская Е.Н.
Факультет биоинженерии и биоинформатики,
Московский государственный университет имени М. В. Ломоносова

1. Сборка генома и идентификаторы

Для работы была использована страница сборки в базе NCBI Datasets Genome: GCF_000025945.1.

Протеом является референсным и не относится к избыточным наборам.

2. Проверка выбранного протеома

При выполнении первого задания было установлено, что протеом с ID UP000000602 является референсным, поэтому его можно использовать для дальнейшего анализа.

Для проверки выбранного протеома и следования методическим рекомендациям был использован запрос (taxonomy_id:177439) AND (proteome_type:*reference), который подтвердил, что рассматриваемый протеом является единственным референсным для организма Desulfotalea psychrophila LSv54.

Команда для скачивания белковых записей

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000000602' -O ~/term2/pr8/UP000000602.swiss.gz

3. Анализ аннотаций HELIX и TRANSMEM

Код

import gzip

file_path = "/home/students/y25/ezhe/term2/pr8/UP000000602.swiss.gz"

helix_set = set()
tm_set = set()
entry_id = None

with gzip.open(file_path, "rt") as f:
    for row in f:
        if row.startswith("ID "):
            entry_id = row.split()[1]

        if row.startswith("FT ") and entry_id:
            if "HELIX" in row:
                helix_set.add(entry_id)
            if "TRANSMEM" in row:
                tm_set.add(entry_id)

print("helix:", len(helix_set))
print("transmem:", len(tm_set))
print("both:", len(helix_set & tm_set))

Результаты

1 белок с аннотацией HELIX
702 белка с аннотацией TRANSMEM
0 белков в пересечении множеств

В обработанном файле SwissProt 702 белка имеют аннотацию TRANSMEM, то есть содержат трансмембранный участок, но только один белок аннотирован как HELIX. Пересечение множеств отсутствует: ни один белок не содержит одновременно обеих меток.

С биологической точки зрения такое расхождение выглядит противоречиво, поскольку трансмембранные домены мембранных белков чаще всего представлены альфа-спиралями. Однако это объясняется особенностями аннотации: метка HELIX обычно требует экспериментально подтверждённой трёхмерной структуры, тогда как TRANSMEM часто основана на компьютерных предсказаниях. Поэтому полученные оценки отражают не столько биологическую реальность, сколько неполноту существующих аннотационных данных.

4. Оценка числа ферментов в протеоме

proteome:UP000000602 AND ec:*

617 результатов

proteome:UP000000602 AND cc_catalytic_activity:*

573 результата

Поиск по EC-номерам выявил 617 записей, а поиск по блоку CATALYTIC ACTIVITY — 573 записи. Разница составляет около 7%, что указывает на хорошее согласование между двумя подходами оценки.

Запрос по EC-номерам дал несколько больше результатов, что может объясняться наличием белков с присвоенным EC-номером, но без подробного описания каталитической активности в комментариях. Поэтому в качестве итоговой оценки числа ферментов в протеоме разумно принять значение 617.