← Назад ко 2 семестру

Практикум 8. Отчёт по организму Pyrococcus abyssi GE5

В работе использовался организм Pyrococcus abyssi GE5. Целью было найти соответствующий геномной сборке протеом UniProt, выбрать референсный протеом для дальнейшей работы, оценить число белков с альфа-спиралями и оценить количество ферментов в протеоме по нескольким независимым признакам.

1. Поиск протеома, соответствующего геномной сборке

На первом этапе требовалось найти протеом UniProt, соответствующий геномной сборке, с которой велась работа в предыдущем семестре. Идентификатор сборки был известен из таблицы локальных особенностей генома, заполнявшейся в первом задании практикума 5 предыдущего семестра: для организма Pyrococcus abyssi GE5 это был идентификатор RefSeq GCF_000195935.1.

Поиск актуальной версии сборки в NCBI Datasets Genome

Чтобы убедиться, что используется последняя версия сборки, поиск был выполнен в базе NCBI Datasets Genome. В окошко поиска вводился идентификатор сборки без указания версии — то есть без части после точки:

GCF_000195935

В результате была найдена страница актуальной геномной сборки ASM19593v2: https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_000195935.2/. На странице сборки в поле Submitted GenBank assembly указан соответствующий идентификатор INSDC.

ПараметрЗначение
ОрганизмPyrococcus abyssi GE5 / Orsay
Название сборкиASM19593v2
Taxonomy ID272844
RefSeq assemblyGCF_000195935.2
INSDC / GenBank assemblyGCA_000195935.2

Таким образом, последняя версия сборки — это ASM19593v2, идентификатор INSDC — GCA_000195935.2 (использовалась последняя версия, отличающаяся от ранее полученной первой версии GCF_000195935.1).

Поиск протеома в UniProt Proteomes

Далее поиск выполнялся в базе UniProt Proteomes. Согласно инструкции к заданию, поиск проводился по полю "Genome Assembly" в конструкторе поисковых запросов с указанием идентификатора INSDC с номером версии (UniProt Proteomes не умеет искать по сборкам RefSeq и не умеет искать по идентификаторам сборок без указания версии). Использованный поисковый запрос:

genome_assembly:GCA_000195935.2

В результате был найден протеом UP000000810, соответствующий организму Pyrococcus abyssi GE5 / Orsay. На странице протеома указано, что он связан со сборкой GCA_000195935.2 — что подтверждает корректность результата.

ПараметрЗначение
Proteome IDUP000000810
ОрганизмPyrococcus abyssi GE5 / Orsay
Taxonomy ID272844
Соответствующая сборкаGCA_000195935.2
Статус протеомаReference proteome
Число белковых записей UniProtKB1788

Протеом не является избыточным и не был удалён из базы. Это referent protee со статусом Reference proteome.

2. Поиск и скачивание референсного протеома

На втором этапе требовалось найти референсный протеом, наиболее близкий к протеому изучаемого организма, и скачать все белковые записи UniProtKB этого протеома в формате swiss (формат UniProtKB flat file в пакете EMBOSS).

Поиск референсного протеома по таксону

Поиск выполнялся в базе UniProt Proteomes. Согласно условию задания, поисковый запрос должен был содержать одновременно ограничение по таксону и по статусу протеома; вместо названия таксона использовался его TaxID. Taxonomy ID для Pyrococcus abyssi GE5 / Orsay (272844) был получен через базу UniProt Taxonomy. Использован запрос:

taxonomy_id:272844 AND proteome_type:1

Здесь taxonomy_id:272844 ограничивает поиск изучаемым организмом и штаммом, а proteome_type:1 оставляет в результате только референсные протеомы. Поиск выдал единственный референсный протеом — UP000000810, тот же, что был найден в задании 1. Переход к таксону более высокого уровня не потребовался.

ПараметрЗначение
Референсный протеомUP000000810
ОрганизмPyrococcus abyssi GE5 / Orsay
Taxonomy ID272844
Геномная сборкаGCA_000195935.2
СтатусReference proteome
Число записей UniProtKB1788

Скачивание записей через REST API UniProt

Для скачивания записей UniProtKB, принадлежащих выбранному референсному протеому, использовался REST API UniProt. Поисковый запрос к UniProtKB, выдающий все белки протеома:

proteome:UP000000810

Этот запрос был преобразован в URL для скачивания записей в формате txt (UniProtKB flat file, в EMBOSS — формат swiss), сжатых gzip. Команда, использованная для скачивания:

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28proteome%3AUP000000810%29' -O UP000000810.swiss.gz

Файл сохранён в каталоге практикума на kodomo под именем ~/term2/pr8/UP000000810.swiss.gz.

Проверка скачанного файла

Подсчёт записей по строкам ID:

zgrep '^ID   ' UP000000810.swiss.gz | wc -l

Результат: 1788. Это совпадает с числом записей референсного протеома UP000000810 в UniProt, что подтверждает корректное скачивание файла.

3. Оценка числа белков, содержащих альфа-спирали

В записях UniProtKB локальные особенности белка указываются в поле FT. Признак FT HELIX прямо указывает на участок белка, аннотированный как альфа-спираль. Признак FT TRANSMEM соответствует трансмембранному участку — такие участки у мембранных белков часто (хотя и не всегда) представлены альфа-спиралями.

Подсчёт выполнялся по белковым записям, а не по строкам файла: одна запись UniProtKB может содержать несколько строк FT HELIX или FT TRANSMEM, относящихся к одному белку. Если считать строки, один белок с несколькими аннотированными участками будет посчитан несколько раз.

Скрипт для подсчёта

#!/usr/bin/env python3
import gzip
import re

filename = "UP000000810.swiss.gz"

total_records = 0
helix_records = 0
transmem_records = 0
both_records = 0

with gzip.open(filename, "rt") as file:
    record = []
    for line in file:
        record.append(line)
        if line.startswith("//"):
            total_records += 1
            text = "".join(record)
            has_helix = re.search(r"^FT\s+HELIX\b", text, re.MULTILINE) is not None
            has_transmem = re.search(r"^FT\s+TRANSMEM\b", text, re.MULTILINE) is not None
            if has_helix:
                helix_records += 1
            if has_transmem:
                transmem_records += 1
            if has_helix and has_transmem:
                both_records += 1
            record = []

print("Total records:", total_records)
print("Records with FT HELIX:", helix_records)
print("Records with FT TRANSMEM:", transmem_records)
print("Records with both:", both_records)

Результаты

ПоказательКоличество записей
Всего белковых записей в протеоме1788
Записи с признаком FT HELIX56
Записи с признаком FT TRANSMEM353
Записи одновременно с FT HELIX и FT TRANSMEM0

Обсуждение

Признак FT HELIX найден в 56 записях — это белки с явно аннотированными альфа-спиральными участками. Однако это число не равно полному числу белков протеома, физически содержащих альфа-спирали: оно отражает только записи, где альфа-спираль явно внесена в аннотацию. У большинства белков вторичная структура в UniProtKB не аннотирована, потому что для этого нужны экспериментально определённые структуры. Поэтому оценка по HELIX — заниженная.

Признак FT TRANSMEM найден в 353 записях. Это существенно больше, чем число записей с HELIX, поскольку TRANSMEM отражает другое явление: положение участка относительно мембраны, а не элемент вторичной структуры. Эти участки часто (но не всегда) являются альфа-спиральными у мембранных белков. Оценка по TRANSMEM — косвенная.

Оба признака не встретились в одной и той же записи ни разу. Это связано с особенностями аннотации: в одних записях есть прямые аннотации вторичной структуры (для белков с известной 3D-структурой), в других — предсказанные трансмембранные участки (на основе анализа последовательности). В рассматриваемом протеоме эти два типа аннотаций просто не пересеклись.

Между числами 56 и 353 нет противоречия — это оценки, основанные на разных признаках с разной природой. Полученные числа являются приближёнными, и более точная оценка количества альфа-спиральных белков потребовала бы анализа предсказаний вторичной структуры (например, программой DSSP по данным AlphaFold).

4. Оценка количества ферментов в протеоме

Для оценки количества ферментов использовались два независимых поисковых запроса по разным полям записей UniProtKB. Это важно, так как ферментативная активность может быть отражена разными способами, и единый запрос даёт неполную оценку.

Запрос 1. По наличию EC-номера

Номер EC (Enzyme Commission) — формальная классификация ферментов по катализируемой реакции. Поиск в расширенном поиске UniProt по полю EC с условием наличия (звёздочка вместо конкретного значения), с ограничением по протеому:

(ec:*) AND (proteome:UP000000810)

Результат: 400 записей.

Запрос 2. По наличию блока CATALYTIC ACTIVITY

Поле CC разделено на тематические блоки, один из которых называется CATALYTIC ACTIVITY. Этот блок указывает на наличие описанной каталитической реакции и присутствует в записях белков, обладающих ферментативной активностью. Поиск выполнен в расширенном поиске UniProt по полю Catalytic Activity (Comment), с ограничением по протеому:

(cc_catalytic_activity:*) AND (proteome:UP000000810)

Результат: 364 записи.

Сравнение оценок

КритерийКоличество записей
Всего записей в протеоме1788
Наличие EC-номера400
Наличие блока CATALYTIC ACTIVITY364

Оценки близки друг к другу: 400 по EC и 364 по CATALYTIC ACTIVITY. Оба критерия достаточно строгие и непосредственно связаны с ферментативной функцией. Расхождение в 36 записей объясняется тем, что не для всех белков с EC-номером в UniProtKB обязательно приводится отдельный блок с подробным описанием каталитической реакции, и наоборот — в некоторых записях может быть описана каталитическая активность без присвоенного EC-номера (например, если фермент описан, но не классифицирован формально).

Оценки можно считать достаточно точными для нижней границы количества ферментов в протеоме. Реальное число белков с ферментативной активностью может быть несколько больше, так как:

  • не все ферменты получили EC-номер;
  • некоторые записи могут описывать предполагаемые ферменты без полной аннотации каталитической активности;
  • некоторые белки проявляют ферментативную активность как побочную функцию, не отражённую в основной аннотации.

Таким образом, в референсном протеоме UP000000810 организма Pyrococcus abyssi GE5 / Orsay примерно 360–400 белков (из 1788) обладают ферментативной активностью по данным UniProtKB.