Для поиска референсного протеома использовался запрос (taxonomy_id:187137) AND (proteome_type:1).
С помощью команды curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000008722)' > UP000008722.swiss.gz протеом был загружен на kodomo.
Для выполнения задания 3 был написал скрипт на питоне:
filename = "UP000008722.swiss.gz"
import gzip
with gzip.open(filename, 'rt', encoding='utf-8') if file:
h = 0
t = 0
f = file.read()
records = f.split('//')
for record in records:
if not record.strip():
continue
has_helix = False
has_transmem = False
lines = record.strip().split('\n')
for line in lines:
if line.startswith('FT'):
if 'HELIX' in line:
has_helix = True
if 'TRANSMEM' in line:
has_transmem = True
if has_helix:
h += 1
if has_transmem:
t += 1
print(f"Записей с альфа-спиралями {h}")
print(f"Записей с трансмембранными участками {t}")
После его запуска мы получили следующие результаты:
Записей с альфа-спиралями: 0
Записей с трансмембранными участками: 482
Полученные результаты противоречат указанной в задании 3 информации о том, что трансмембранные участки чаще всего являются альфа-спиралями. Однако, возможно, полученные результаты связаны с тем, что то, что белок является трансмембранным, предсказывается по последовательности белка (как правило, в трансмембранных белках много гидрофобных аминокислот). Вторичную структуру белка определяют непосредственно по белку. Т.к. исследуемая бактерия не является модельным организмом, ее белки недостаточно исследованы (большинство белков получены на основе гомологии), поэтому установить точную вторичную структуру белка не представляется возможным. В связи с этим ключ HELIX в описание белков не добавляется, а ключ TRANSMEM в описании присутствует.
Можно предположить, что белок довольно распространенный, и его последовательность не слишком консервативна, т.к. на 90 процентов совпадает с последовательностями белков 7 других видов.
Далее мы попытались оценить, сколько в референсном протеоме белков, обладающих какой-либо ферментативной активностью.
По запросу (proteome:UP000008722) AND (cc_catalytic_activity:*) было найдено 460 белков.
По запросу (proteome:UP000008722) AND (ec:*) найдено 598 белков.
Возможно, такая разница в количестве ферментов обусловлено тем, что номер EC присутствует у всех ферментов, а поле cc_catalytic_activity есть не у всех ферментов.