Практикум 8: Поиск протеома и оценка аннотаций

1. Поиск протеома, соответствующего геномной сборке

В прошлом семестре проводилась работа с геномной сборкой GCF_000021685.1 бактерии Thermomicrobium roseum DSM 5159. Ознакомиться с ней можно по ссылке. Идентификатор сборки в INSDC – GCA_000021685.1, в RefSeq – GCF_000021685.1. Далее по запросу "genome_assembly:GCA_000021685.1" в UniProt Proteomes был найден протеом с идентификатором UP000000447.

2. Поиск и скачивание референсного протеома

Поиск референсного протеома в UniProt Proteomes производился по запросу "(proteome_type:1) AND (taxonomy_id:499)". Нашелся тот же самый протеом c UP000000447.

Для скачивания принадлежащих протеому белковых записей использовалась команда:

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000000447' -O UP000000447.swiss.gz

3. Оценка числа белков, содержащих альфа-спирали и трансмембранные участки

Для количественной оценки белков, содержащих альфа-спирали и трансмембранные участки, использовался скрипт на Python:

import gzip

file = "UP000000447.swiss.gz"

helix_count = 0
transmem_count = 0
has_helix = False
has_transmem = False

with gzip.open(file, "rt") as f:
    for line in f:
        if line.startswith("//"):
            if has_helix:
                helix_count += 1
            if has_transmem:
                transmem_count += 1
            has_helix = False
            has_transmem = False
        elif line.startswith("FT"):
            if "HELIX" in line:
                has_helix = True
            if "TRANSMEM" in line:
                has_transmem = True

print(helix_count)
print(transmem_count)

В результате работы скрипта выяснилось, что 556 записей содержат трансмембранные участки. Записей с альфа-спиралями обнаружено не было.

Противоречие в числах связано с неполнотой экспериментальных данных о вторичной структуре в базе UniProt. Результат объясняется разницей в методах аннотирования: ключ TRANSMEM проставляется автоматически, в то время как HELIX вносится в поле FT при наличии экспериментально подтвержденной 3D-структуры. Таким образом, нулевое значение не означает отсутствие спиралей в белках, а лишь указывает на то, что данные объекты еще не были изучены методами рентгеноструктурного анализа или ЯМР.

4. Оценка количества ферментов в протеоме

Для оценки числа ферментов в протеоме UP000000447 поиск расширялся от строгих критериев к более общим. Запрос по EC-номерам "proteome:UP000000447 AND ec:*" выдал 662 белка, и замена поля каталитической активности "proteome:UP000000447 AND cc_catalytic_activity:*" почти не изменила результат (665 белков). Однако поиск еще и по названию "proteome:UP000000447 AND protein_name:*ase" резко увеличил список до 1358 белков. Это объясняется тем, что многие ферменты аннотированы по сходству и имеют понятное название, но еще не получили официальный номер в классификации. Итоговое число 1358 выглядит самым реалистичным для бактерии.

← Назад к практикумам второго семестра