8 практикум (UniProt Proteomes, EMBOSS)

Ложкина Мария

Поиск протеома, соответствующего геномной сборке

Для задания был изучен протеом бактерии Austwickia chelonae (taxonomy ID: 100225).

Требуемые данные:

  1. ссылка на страницу сборки в базе NCBI Datasets Genome: https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_900111385.1/
  2. идентификатор последней версии сборки в INSDC: GCA_900111385.1
  3. идентификатор последней версии сборки в RefSeq: GCF_900111385.1
  4. поисковый запрос по UniProt Proteomes, который выдал протеом: Austwickia chelonae
  5. идентификатор протеома: UP000008495
  6. статус протеома: Reference proteome - референсный протеом

Поиск и скачивание референсного протеома

Протеом UP000008495 обозначен референсным, все белки были скачаны из него.

Запрос в UniProtKB, по которому база данных выдает нужные записи: (proteome:UP000008495).

Соответствующий URL: https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000003597)

Команда в bash: 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000008495)' > UP000008495.swiss.gz

Оценка числа белков, содержащих альфа-спирали

Передо мной стояла задача посчитать количество записей в протеоме, имеющих альфа-спирали (тип “HELIX” в соответствующей строке записи), или же трансмебмранные структуры (тип “TRANSMEM”).

Код на python для решения этой задачи:


with open ("UP000008495.swiss", "rt") as file:
f = file.read().split('//')
c = 0
helix = 0
transmem = 0

for elem in f:
   if 'HELIX' in elem or 'TRANSMEM' in elem:
     c += 1
   if 'HELIX' in elem:
     helix += 1
   if 'TRANSMEM' in elem:
     transmem += 1

 print('Кол-во записей, имеющих альфа-спирали и трансмембранные участки:', c)
 print('Кол-во записей, имеющих альфа-спирали:', helix)
 print('Кол-во записей, имеющих трансмембранные участки:', transmem)
    

Результат:

  1. Кол-во записей, имеющих альфа-спирали и трансмембранные участки: 744 (24,4% от всего протеома);
  2. Кол-во записей, имеющих альфа-спирали: 3 (0,1% от всего протеома);
  3. Кол-во записей, имеющих трансмембранные участки: 741 (24,3% от всего протеома).

Мы видим, что почти все записи протеома из содержащих или HELIX, или TRANSMEM имеют именно трансмембранные структуры. Мне кажется, это может быть связано с тем, что трансмембранную структуру легче аннотировать, чем любую другую, имеющую альфа-спираль. В результате бОльшее количество белков, выполняющих функцию в мембране, добавляется в протеом.

Оценка количества ферментов в протеоме

Оценим количество ферментов в протеоме с помощью расширенного поиска UniProtKB:

  1. (proteome:UP000008495) AND (ec:*). Результат: 619 записей (20,3% от всего протеома). Данный запрос показывает общее количество белков, обладающих каталитической функцией (EC - enzyme classification – международная классификация ферментов);
  2. (proteome:UP000008495) AND (cc_catalytic_activity:*). Результат: 570 записей (18,7% от всего протеома). Данный запрос показывает, сколько всего белков в протеоме имеет ключевое слово “каталитическая активность” в своих записях.

Различие по количеству находок в первом и втором случае может быть связано с тем, что код ЕС присваивается как по литературным данным, так и экспериментально, когда как каталитическая активность оценивается только в ходе эксперимента.