Для задания был изучен протеом бактерии Austwickia chelonae (taxonomy ID: 100225).
Требуемые данные:
Протеом UP000008495 обозначен референсным, все белки были скачаны из него.
Запрос в UniProtKB, по которому база данных выдает нужные записи: (proteome:UP000008495).
Соответствующий URL: https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000003597)
Команда в bash: 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000008495)' > UP000008495.swiss.gz
Передо мной стояла задача посчитать количество записей в протеоме, имеющих альфа-спирали (тип “HELIX” в соответствующей строке записи), или же трансмебмранные структуры (тип “TRANSMEM”).
Код на python для решения этой задачи:
with open ("UP000008495.swiss", "rt") as file:
f = file.read().split('//')
c = 0
helix = 0
transmem = 0
for elem in f:
if 'HELIX' in elem or 'TRANSMEM' in elem:
c += 1
if 'HELIX' in elem:
helix += 1
if 'TRANSMEM' in elem:
transmem += 1
print('Кол-во записей, имеющих альфа-спирали и трансмембранные участки:', c)
print('Кол-во записей, имеющих альфа-спирали:', helix)
print('Кол-во записей, имеющих трансмембранные участки:', transmem)
Результат:
Мы видим, что почти все записи протеома из содержащих или HELIX, или TRANSMEM имеют именно трансмембранные структуры. Мне кажется, это может быть связано с тем, что трансмембранную структуру легче аннотировать, чем любую другую, имеющую альфа-спираль. В результате бОльшее количество белков, выполняющих функцию в мембране, добавляется в протеом.
Оценим количество ферментов в протеоме с помощью расширенного поиска UniProtKB:
(proteome:UP000008495) AND (ec:*). Результат: 619 записей (20,3% от всего протеома). Данный запрос показывает общее количество белков, обладающих каталитической функцией (EC - enzyme classification – международная классификация ферментов);(proteome:UP000008495) AND (cc_catalytic_activity:*). Результат: 570 записей (18,7% от всего протеома). Данный запрос показывает, сколько всего белков в протеоме имеет ключевое слово “каталитическая активность” в своих записях.Различие по количеству находок в первом и втором случае может быть связано с тем, что код ЕС присваивается как по литературным данным, так и экспериментально, когда как каталитическая активность оценивается только в ходе эксперимента.