Uniprot proteomes, EMBOSS.

1. Поиск протеома, соответствующего геномной сборке.

В прошлом семестре я работала с геномной сборкой Simkania negevensis Z; найти его можно по ссылке:

FTP-сайт NCBI.

На сайте NCBI по идентификатору сборки GCF_000237205 был найден индентификатор сборки INSDC - GCA_000237205.1.

Поисковый запрос по UniProt Proteomes, который выдал протеом:

(genome_assembly:GCA_000237205.1)

Идентификатор протеома: UP000000496.

Статус протеома: референсный протеом.

2. Поиск и скачивание референсного протеома.

Поиск референсного протеома проводился с помощью поисквого запроса:

 (taxonomy_id:331113) AND (proteome_type: 1)

Полная команда для скачивания, которую я использовала:

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28proteome%3AUP000000496%29' -O UP000000496.swiss.gz

3. Оценка числа белков, содержащих альфа-спирали.

В таблице локальных особенностей UniProtKB в после "FT" есть ключ, соответствующий альфа спиралям: "HELIX", а также ключ "TRANSMEM", соответствующий белкам, содержащим трансмембранные участки.

Скрипт на Python, который обрабатывает записи UniProtKB:

 
import gzip

transmembrane_count = 0
helix_count = 0

with gzip.open("./UP000000496.swiss.gz", "rt") as file:
    current_entry = []

    for row in file:
        if row.startswith("ID ") and current_entry:
            record = ''.join(current_entry)

            transmembrane_count += 'FT   TRANSMEM' in record
            helix_count += 'FT   HELIX' in record

            current_entry = []

        current_entry.append(row)

    record = ''.join(current_entry)

    transmembrane_count += 'FT   TRANSMEM' in record
    helix_count += 'FT   HELIX' in record

print(f'Белков с трансмембранными сегментами: {transmembrane_count}')
print(f'Белков с альфа-спиралями: {helix_count}')

Количество белков, содержащих трансмембранные участки: 515
Количество белков, содержащих альфа-спирали: 0
    

Наблюдается странный результат: в записях нет аннотаций с ключом "HELIX", то есть в данном протеоме не указаны белки с альфа-спиралями. Это не значит, что такие структуры отсутствуют в самих белках. Скорее всего, для данного набора записей в UniProtKB отсутствует полная структурная аннотация вторичной структуры. (вероятно, аннотации типа "HELIX" обычно добавляются на основе экспериментально определённых структур.)

При этом среди белков были обнаружены записи с аннотацией "TRANSMEM". Многие трансмембранные сегменты мембранных белков действительно имеют форму альфа-спиралей. Но это не значит, что все альфа-спирали являются трансмембранными или что все трансмембранные участки обязательно образованы альфа-спиралями. Поэтому количество белков с "TRANSMEM" можно рассматривать лишь как приблизительную оценку числа белков, содержащих трансмембранные альфа-спирали.

.

4. Оценка количества ферментов в протеоме.

1) Поиск с помощью поля function > catalytic activity(*):

(proteome:UP000000496) AND (ec:*)

Всего 349 белков из 2516 обладают каталитической активностью.

2) Поиск с помощью поля function > enzyme classification(*):

(proteome:UP000000496) AND (cc_catalytic_activity)

Всего 541 белков из 2516 обладают каталитической активностью.

Количество найденных белков различается, поскольку наличие EC-номера и наличие аннотации catalytic activity не полностью совпадают. EC-номер показывает принадлежность белка к определённому классу ферментов, тогда как catalytic activity содержит описание конкретной катализируемой реакции. У некоторых белков в базе может быть указан EC-номер без подробного описания реакции.

Таким образом, оценка числа ферментов в исследуемом протеоме зависит от выбранного типа аннотаций UniProtKB. Поиск только по catalytic activity или только по enzyme classification даёт различающееся количество белков, поскольку эти аннотации отражают разные аспекты описания ферментативной функции и присутствуют не для всех записей одновременно. Наиболее консервативную оценку числа белков, для которых одновременно указаны и EC-классификация, и конкретная катализируемая реакция, даёт запрос:

(proteome:UP000000496) AND (ec:*) AND (cc_catalytic_activity:*)

В результате было найдено 330 белков, что можно рассматривать как приблизительную оценку количества хорошо аннотированных ферментов в данном протеоме.