GRAND FBB

LEVSHIN VADIM

SEASON: 2025/26 LAPS: 2 STATUS: ACTIVE

Анализ протеома Natranaerobius thermophilus JW/NM-WN-LF

Поиск соответствующего протеома UniProt, выбор референсного протеома, оценка аннотаций по альфа-спиралям, трансмембранным участкам и ферментативной активности.

Анализ протеома Natranaerobius thermophilus JW/NM-WN-LF
Автор: Левшин Вадим Игоревич
Факультет биоинженерии и биоинформатики, Московский Государственный Университет имени М.В.Ломоносова
Контактные данные: Dima.Tumanovs@yandex.ru
UP000001683 GCA_000020005.1 GCF_000020005.1 TaxID 375929 reference proteome

ПОИСК ПРОТЕОМА, СООТВЕТСТВУЮЩЕГО ГЕНОМНОЙ СБОРКЕ

Для работы был рассмотрен организм Natranaerobius thermophilus JW/NM-WN-LF. Поиск геномной сборки проводился в базе NCBI Datasets Genome. Для данного штамма актуальной сборке соответствует RefSeq-идентификатор GCF_000020005.1, а связанный с ней идентификатор INSDC/GenBank — GCA_000020005.1. По имеющимся данным это сборка ASM2000v1.

Далее по идентификатору сборки INSDC был выполнен поиск в UniProt Proteomes по полю Genome Assembly. Поисковый запрос можно записать как Genome Assembly: GCA_000020005.1. Этот запрос приводит к протеому UP000001683, связанному со сборкой GCA_000020005.1 from ENA/EMBL. На странице протеома указано, что его статус — Reference proteome. Следовательно, данный протеом не является избыточным, не был исключён из базы Proteomes и не требует указания протеома, в пользу которого он был бы удалён. В протеом входит 2847 белковых записей UniProtKB.

ПОИСК И СКАЧИВАНИЕ РЕФЕРЕНСНОГО ПРОТЕОМА

Для поиска ближайшего референсного протеома сначала был определён таксон организма в базе UniProt Taxonomy. Для вида Natranaerobius thermophilus используется TaxID 375929, а для конкретного штамма JW/NM-WN-LF фигурирует штаммовый TaxID 457570. Поиск референсного протеома был начат с уровня вида.

Использованный поисковый запрос в базе Proteomes:

taxonomy_id:375929 AND status:"Reference proteome"

Переходить к более высокому таксону не потребовалось, поскольку референсный протеом уже найден для самого исследуемого организма — это UP000001683.

Для скачивания белковых записей, принадлежащих выбранному протеому, в базе UniProtKB использовался запрос proteome:UP000001683. Для выгрузки записей в формате flat file UniProtKB (txt, соответствующем формату swiss в EMBOSS) в gzip-сжатом виде была использована следующая команда:


curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28proteome%3AUP000001683%29' > ~/term2/pr8/UP000001683.swiss.gz

В результате был получен файл ~/term2/pr8/UP000001683.swiss.gz.

ОЦЕНКА ЧИСЛА БЕЛКОВ, СОДЕРЖАЩИХ АЛЬФА-СПИРАЛИ

Для оценки числа белков, содержащих альфа-спирали, были проанализированы аннотации поля FT в записях UniProtKB. В описании формата записей UniProtKB ключ HELIX соответствует участкам альфа-спирали, а ключ TRANSMEM — трансмембранным сегментам. Для подсчёта числа записей, а не числа строк, был использован Python-скрипт, читающий gzip-файл напрямую и проверяющий наличие нужных ключей внутри каждой записи до разделителя //:


import gzip

filename = "UP000001683.swiss.gz"

records = 0
with_helix = 0
with_transmem = 0

has_helix = False
has_transmem = False

with gzip.open(filename, "rt") as fh:
    for line in fh:
        if line.startswith("FT   HELIX"):
            has_helix = True
        elif line.startswith("FT   TRANSMEM"):
            has_transmem = True
        elif line.startswith("//"):
            records += 1
            if has_helix:
                with_helix += 1
            if has_transmem:
                with_transmem += 1
            has_helix = False
            has_transmem = False

print("total_records =", records)
print("records_with_HELIX =", with_helix)
print("records_with_TRANSMEM =", with_transmem)

При запуске скрипта были получены следующие результаты: total_records = 2847, records_with_HELIX = 0, records_with_TRANSMEM = 699.

Полученная оценка показывает, что в данном наборе записей аннотации с ключом TRANSMEM встречаются у 699 белков, тогда как аннотации с ключом HELIX не встретились ни в одной записи. Формально противоречия здесь нет, хотя на первый взгляд результат выглядит необычно. Ключ HELIX используется для явной аннотации элементов вторичной структуры, а такие данные есть далеко не для всех белков, особенно в больших бактериальных протеомах, где значительная часть записей аннотирована автоматически или по гомологии. Напротив, ключ TRANSMEM относится к предсказанию или аннотации трансмембранных сегментов и потому может присутствовать существенно чаще.

Следовательно, оценка числа белков с альфа-спиралями по ключу HELIX в данном случае оказывается явно неудачной и сильно заниженной, фактически равной нулю из-за отсутствия соответствующих аннотаций в файле. Оценка по TRANSMEM тоже не равна числу всех белков с альфа-спиралями, потому что трансмембранные участки составляют лишь часть возможных альфа-спиральных структур белков. Таким образом, оба подхода дают лишь косвенные оценки, но в данном протеоме ключ TRANSMEM оказывается заметно более информативным, чем ключ HELIX.

ОЦЕНКА КОЛИЧЕСТВА ФЕРМЕНТОВ В ПРОТЕОМЕ

Для оценки количества ферментов в референсном протеоме были использованы два поисковых запроса UniProtKB по разным полям. Первый запрос был основан на наличии EC-номера:

proteome:UP000001683 AND ec:*

Этот запрос дал 619 результатов.

Второй запрос был основан на наличии блока комментария CATALYTIC ACTIVITY:

proteome:UP000001683 AND cc_catalytic_activity:*

Этот запрос дал 482 результата.

Обе оценки связаны с ферментативной активностью, но отражают её по-разному. Запрос по полю ec находит белки, для которых указан код EC, то есть ферментативная активность описана в форме классификации по катализируемой реакции. Запрос по полю cc_catalytic_activity находит записи, где в комментариях явно присутствует блок о каталитической активности.

В данном случае количество находок по запросу ec:* оказалось больше, чем по запросу cc_catalytic_activity:*. Это не является логическим противоречием, поскольку аннотации разных полей в UniProt заполняются не полностью синхронно: часть белков может уже иметь EC-номер, но не иметь отдельного комментария CATALYTIC ACTIVITY, либо такой комментарий может быть оформлен не во всех записях. Следовательно, обе оценки являются приближёнными. Запрос по ec выглядит в данном случае более чувствительным, но тоже не гарантирует нахождение всех ферментов, так как не всякая ферментативная активность в базе доведена до присвоения EC-номера. Запрос по cc_catalytic_activity является более строгим и, вероятно, даёт более консервативную оценку. Поэтому реальное число ферментных белков в протеоме, скорее всего, не меньше 482 и по крайней мере сопоставимо с величиной порядка 500–600 белков.

ВЫВОДЫ

Для Natranaerobius thermophilus JW/NM-WN-LF был найден соответствующий протеом UniProt UP000001683, связанный со сборкой GCA_000020005.1 и имеющий статус Reference proteome. Именно этот протеом был использован как референсный для дальнейшей работы.

Анализ аннотаций показал, что в протеоме имеется 699 белков с аннотированными трансмембранными сегментами, но аннотации HELIX отсутствуют, из-за чего прямую оценку числа белков с альфа-спиралями по этому ключу получить не удалось. Оценка числа ферментов по запросам UniProtKB дала значения 619 и 482, что показывает зависимость результата от выбранного критерия и неполноты аннотаций в отдельных полях базы.