Практикум 8: Поиск протеома и оценка аннотаций

1. Поиск протеома, соответствующего геномной сборке

В прошлом семестре проводилась работа с геномной сборкой GCF_000021685.1 бактерии Thermomicrobium roseum DSM 5159. Ознакомиться с ней можно по ссылке: https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/021/685/GCF_000021685.1_ASM2168v1. Идентификатор последней версии сборки в INSDC – GCA_000021685.1, в RefSeq – GCF_000021685.1.

Далее для поиска протеома в UniProt Proteomes был введен запрос "genome_assembly:GCA_000021685.1". Идентификатор найденного протеома – UP000000447, статус – Reference proteome.

2. Поиск и скачивание референсного протеома

Так как найденный протеом является референсным, дополнительный поиск референсных протеомов не производился. Для скачивания принадлежащих протеому белковых записей использовалась команда:

wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000000447' -O UP000000447.swiss.gz

3. Оценка числа белков, содержащих альфа-спирали и трансмембранные участки

Для количественной оценки белков, содержащих альфа-спирали и трансмембранные участки, использовался скрипт на Python:

import gzip file = "UP000000447.swiss.gz" helix_count = 0 transmem_count = 0 has_helix = False has_transmem = False with gzip.open(file, "rt") as f: for line in f: if line.startswith("//"): if has_helix: helix_count += 1 if has_transmem: transmem_count += 1 has_helix = False has_transmem = False elif line.startswith("FT"): if "HELIX" in line: has_helix = True if "TRANSMEM" in line: has_transmem = True print(helix_count) print(transmem_count)

В результате его запуска выяснилось, что 556 записей содержат трансмембранные участки. Записей с альфа-спиралями обнаружено не было.

Противоречие в числах связано с неполнотой экспериментальных данных о вторичной структуре в базе UniProt. Результат объясняется разницей в методах аннотирования: ключ TRANSMEM проставляется автоматически, в то время как HELIX вносится в поле FT при наличии экспериментально подтвержденной 3D-структуры. Таким образом, нулевое значение не означает отсутствие спиралей в белках, а лишь указывает на то, что данные объекты еще не были изучены методами рентгеноструктурного анализа или ЯМР.

4. Оценка количества ферментов в протеоме

Для оценки числа ферментов в протеоме UP000000447 поиск расширялся от строгих критериев к более общим. Запрос по EC-номерам "proteome:UP000000447 AND ec:*" выдал 662 белка, и добавление поля каталитической активности "proteome:UP000000447 AND cc_catalytic_activity:*" почти не изменило результат (665 белков). Однако поиск еще и по названию "proteome:UP000000447 AND protein_name:*ase" резко увеличил список до 1358 белков. Это объясняется тем, что многие ферменты аннотированы по сходству и имеют понятное название, но еще не получили официальный номер в классификации. Итоговое число 1358 выглядит самым реалистичным для бактерии.

← Назад к практикумам второго семестра