Поиск протеома, соответствующего геномной сборке
В миниобзоре данные о геноме Halomicroarcula marina были взяты из геномной сборки NCBI RefSeq GCF_024218775.1. Ей соответствует сборка GCA_024218775.1 в INSDC. Поиск по UniProt Proteomes с запросом (genome_assembly:GCA_024218775.1) не выдал результатов.
Поиск и скачивание референсного протеома
1 запрос по базе данный UniProt Taxonomy: Haloarcula marina.
Результат: Taxon ID 2961574.
2 запрос по базе данный UniProt Proteoms: (taxonomy_id:2961574) AND (proteome_type:1).
Результат: Ничего не было найдено (как и при поиске по genome_assembly, что логично).
3 запрос по базе данный UniProt Taxonomy: (scientific:Haloarcula).
Результат: Получено 490 результатов, для рода Taxon ID 2237.
4 запрос по базе данный UniProt Proteoms: (taxonomy_id:2237) AND (proteome_type:1).
Результат: 22 результата, я выбрала протеом UP000011524 для Haloarcula japonica.
Команда для скачивания протеома: curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000011524)' > ~/term2/pr8/UP000011524.swiss.gz.
Оценка числа белков, содержащих альфа-спирали
Альфа-спиралям белков в поле FT соответствует ключ HELIX, трансмембранным участкам - TRANSMEM.
С помощью скрипта python (листинг 1) было найдено 0 белков с альфа-спиралями и 956 белков с трансмембранными участками. Подобные результаты противоречат представлениям, согласно которым большинство трансмембранных участков формируются альфа-спиралями. Это может быть связано с недостаточной изученностью данного протеома, так как ключ HELIX обычно добавляется при изучении вторичной структуры по экспериментальным данным, а ключ TRANSMEM может ставиться автоматически. Также возможно, что из-за того, что трансмембранные участки чаще всего являются альфа-спиралями, то последние просто подразумеваютя в записе ключа TRANSMEM, если не указано иное.
import gzip
helix_flag, transmem_flag, helix_id_flag, transmem_id_flag = 0, 0, 0, 0
with gzip.open('UP000011524.swiss.gz.', 'rt') as f:
for line in f:
if line.startswith('ID'):
if helix_flag > 0:
helix_id_flag += 1
helix_flag = 0
if transmem_flag > 0:
transmem_id_flag += 1
transmem_flag = 0
if line.startswith('FT HELIX'):
helix_flag += 1
if line.startswith('FT TRANSMEM'):
transmem_flag += 1
if helix_flag > 0:
helix_id_flag += 1
if transmem_flag > 0:
transmem_id_flag +=1
print('Количество белков с альфа-спиралями:', helix_id_flag)
print('Количество белков с трансмембранными участками:', transmem_id_flag)
Оценка количества ферментов в протеоме
При помощи поисковых запросов в базе UniProtKB был проведен анализ количества белков, обладающих ферментативной активностью, в протеоме UP000011524.
1 запрос: (proteome:UP000011524) AND (EC:*)
Результат: 550
2 запрос: (proteome:UP000011524) AND (cc_catalytic_activity:*)
Результат: 472
Различия в полученных результатах можно объяснить тем, что белки могут проявлять ферментативную активность, не связанную с катализом, поэтому второй запрос более специфичен и показывает не все белки, являющиеся ферментами. В связи с этим, поиск по EC-кодам более точен для выполнения поставленной задачи.