1. Поиск протеома, соответствующего геномной сборке
В прошлом семестре проводилась работа с геномной сборкой GCF_000021685.1 бактерии Thermomicrobium roseum DSM 5159. Ознакомиться с ней можно по ссылке. Идентификатор сборки в INSDC – GCA_000021685.1, в RefSeq – GCF_000021685.1. Далее по запросу "genome_assembly:GCA_000021685.1" в UniProt Proteomes был найден протеом с идентификатором UP000000447.
2. Поиск и скачивание референсного протеома
Поиск референсного протеома в UniProt Proteomes производился по запросу "(proteome_type:1) AND (taxonomy_id:499)". Нашелся тот же самый протеом c UP000000447.
Для скачивания принадлежащих протеому белковых записей использовалась команда:
3. Оценка числа белков, содержащих альфа-спирали и трансмембранные участки
Для количественной оценки белков, содержащих альфа-спирали и трансмембранные участки, использовался скрипт на Python:
import gzip
file = "UP000000447.swiss.gz"
helix_count = 0
transmem_count = 0
has_helix = False
has_transmem = False
with gzip.open(file, "rt") as f:
for line in f:
if line.startswith("//"):
if has_helix:
helix_count += 1
if has_transmem:
transmem_count += 1
has_helix = False
has_transmem = False
elif line.startswith("FT"):
if "HELIX" in line:
has_helix = True
if "TRANSMEM" in line:
has_transmem = True
print(helix_count)
print(transmem_count)
В результате работы скрипта выяснилось, что 556 записей содержат трансмембранные участки. Записей с альфа-спиралями обнаружено не было.
Противоречие в числах связано с неполнотой экспериментальных данных о вторичной структуре в базе UniProt. Результат объясняется разницей в методах аннотирования: ключ TRANSMEM проставляется автоматически, в то время как HELIX вносится в поле FT при наличии экспериментально подтвержденной 3D-структуры. Таким образом, нулевое значение не означает отсутствие спиралей в белках, а лишь указывает на то, что данные объекты еще не были изучены методами рентгеноструктурного анализа или ЯМР.
4. Оценка количества ферментов в протеоме
Для оценки числа ферментов в протеоме UP000000447 поиск расширялся от строгих критериев к более общим. Запрос по EC-номерам "proteome:UP000000447 AND ec:*" выдал 662 белка, и замена поля каталитической активности "proteome:UP000000447 AND cc_catalytic_activity:*" почти не изменила результат (665 белков). Однако поиск еще и по названию "proteome:UP000000447 AND protein_name:*ase" резко увеличил список до 1358 белков. Это объясняется тем, что многие ферменты аннотированы по сходству и имеют понятное название, но еще не получили официальный номер в классификации. Итоговое число 1358 выглядит самым реалистичным для бактерии.