Практикум 8. Анализ протеома

Поиск протеома, соответствующего геномной сборке

1. Ссылка на геномную сборку (NCBI Datasets Genome)

В предыдущем семестре проводилась работа с геномной сборкой (NCBI Datasets Genome) бактерии Rhodoferax Ferrireducence T118.

Идентификаторы сборки:

INSDC:GCA_000013605.1

RefSeq: GCF_000013605.1

По запросу genome_assembly:GCA_000013605.1 в UniProt Proteomes был найден протеом с ID UP000008332

Статус протеома - Reference proteome

Поиск и скачивание референсного протеома

Единственный найденный протеом оказался референсным, поэтому для скачивания белковых записей использовался именно он.

Также была выполнена проверка с помощью запроса (taxonomy_id:338969) AND (proteome_type:1)

Запись была скачана командой

 wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000008332' -O  ~/term2/pr8/UP000008332.swiss.gz

Оценка числа белков, содержащих альфа-спирали

Использовался код:

import gzip

file = "UP000008332.swiss.gz"

helix = 0
transmem = 0

has_helix = False
has_transmem = False

with gzip.open(file, "rt") as f:
    for line in f:

        if line.startswith("FT   HELIX"):
            has_helix = True

        if line.startswith("FT   TRANSMEM"):
            has_transmem = True

        if line.startswith("//"):
            if has_helix:
                helix += 1
            if has_transmem:
                transmem += 1

            has_helix = False
            has_transmem = False

print("HELIX:", helix)
print("TRANSMEM:", transmem)

Число записей с альфа-спиралями оказалось значительно меньше числа записей с трансмембранными участками (1 против 858).

Оценка не слишком удачная: Такое различие, скорее всего, не отражает реальное отсутствие α-спиралей в белках, поскольку большинство белков содержат α-спиральные элементы вторичной структуры.

Причина наблюдаемого эффекта может заключаться в различии типов аннотаций: альфа-спирали аннотируются, основываясь на экспериментальных данных, тогда как трансмембранные участки чаще всего предсказываются вычислительными методами и поэтому присутствуют у значительно большего числа белков.

Оценка количества ферментов в протеоме

Были использованы несколько подходов для оценки числа ферментов в протеоме Albidiferax ferrireducens.

Поиск по классификации ферментов по запросу (proteome:UP000008332) AND (ec:*) дал 1089 белков, тогда как поиск по аннотации каталитической активности по запросу (proteome:UP000008332) AND (cc_catalytic_activity:*) выявил 834 белка.

Различие объясняется тем, что EC-номера могут присваиваться автоматически на основе сходства последовательностей или предполагаемой ферментативной функции, тогда как CC-блок содержит более подробное описание катализируемой реакции и заполнен не для всех белков.

Пересечение этих двух множеств (По запросу (proteome:UP000008332) AND (ec:*) AND (cc_catalytic_activity:*)) составляет 821 белок, что соответствует наиболее надёжно аннотированным ферментам.

Объединение двух подходов (((proteome:UP000008332) AND (ec:*)) OR ((proteome:UP000008332) AND (cc_catalytic_activity:*))) даёт 1102 белка, что можно рассматривать как верхнюю оценку числа ферментов в протеоме.

Поиск по названию белков запросом (proteome:UP000008332) AND (protein_name:*ase*) выявил 2028 записей. Запрос не является надёжным, так как не связан напрямую с функциональной аннотацией, а основан на текстовом совпадении в названии белка.