Для задания был изучен протеом бактерии Austwickia chelonae (taxonomy ID: 100225).
Требуемые данные:
(genome_assembly:GCA_003391095.1) не дал результатовС помощью поискового запроса (taxonomy_id:100225) AND (proteome_type:1) в UniProt Proteomes был найден референсный протеом UP000008495.
Далее при помощи запроса (proteome:UP000008495) в базе данных UniProtKB были найдены 3048 белков, принадлежащих этому протеому.
Соответствующий URL: https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000008495)
Команда в bash для скачивания белков протеома из соответствующего запроса в базе UniProtKB в файл UP000008495.swiss.gz: curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000008495)' > UP000008495.swiss.gz
Для того, чтобы посчитать количество записей (белков) в протеоме, имеющих в своих структурах альфа-спирали (тип “HELIX” в соответствующей строке записи) или трансмембранные белки (тип “TRANSMEM”), был написан код на python.
Код на python для решения этой задачи:
import gzip
f = gzip.open("UP000008495.swiss.gz", "rt")
has_helix = False
has_transmem = False
helix = 0
transmem = 0
for line in f:
if line.startswith('FT TRANSMEM'):
has_transmem = True
if line.startswith('FT HELIX'):
has_helix = True
if line.startswith('//'):
if has_transmem == True:
transmem += 1
if has_helix == True:
helix += 1
has_transmem = False
has_helix = False
f.close()
print('Кол-во записей, имеющих альфа-спирали:', helix)
print('Кол-во записей, имеющих трансмембранные участки:', transmem)
Результат:
Отсутствие в протеоме альфа-спиралей может быть связано с тем, что, возможно, сведения об альфа-спиралях вносятся только на основе экспериментальных данных. В таком случае, если протеом не был обработан вручную, записи об альфа-спиралях будут отсутствовать.
Оценим количество ферментов в протеоме с помощью расширенного поиска UniProtKB:
(proteome:UP000008495) AND (protein_name:*ase). Результат: 1569 записей (51,5% от всего протеома). Многие названия ферментов оканчиваются на -ase, что дало нам возможность примерно оценить количество белков с каталитической активностью в рассматриваемом протеоме. Оценка является примерной, так как некоторые названия ферментов не оканчиваются на -ase (например, тубулин, являющийся ГТФазой, не отображает этого в своем названии). (proteome:UP000008495) AND (cc_catalytic_activity:*). Результат: 570 записей (18,7% от всего протеома).
Данный запрос показывает, сколько всего белков в протеоме имеют каталитическую активность.Поисковый запрос по имени белка дает более точную оценку, поэтому можно предположить, что количество ферментов в протеоме UP000008495 соответствует примерно 51-52% от общего числа белков.