Поиск протеома, соответствующего геномной сборке

В миниобзоре данные о геноме Halomicroarcula marina были взяты из геномной сборки NCBI RefSeq GCF_024218775.1. Ей соответствует сборка GCA_024218775.1 в INSDC. Поиск по UniProt Proteomes с запросом (genome_assembly:GCA_024218775.1) не выдал результатов.

Поиск и скачивание референсного протеома


    1 запрос по базе данный UniProt Taxonomy: Haloarcula marina.
    Результат: Taxon ID 2961574.
    

    2 запрос по базе данный UniProt Proteoms: (taxonomy_id:2961574) AND (proteome_type:1).
    Результат: Ничего не было найдено (как и при поиске по genome_assembly, что логично).
    

    3 запрос по базе данный UniProt Taxonomy: (scientific:Haloarcula).   
    Результат: Получено 490 результатов, для рода Taxon ID 2237.
    

    4 запрос по базе данный UniProt Proteoms: (taxonomy_id:2237) AND (proteome_type:1).
    Результат: 22 результата, я выбрала протеом UP000011524 для Haloarcula japonica.
    

Команда для скачивания протеома: curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000011524)' > ~/term2/pr8/UP000011524.swiss.gz.

Оценка числа белков, содержащих альфа-спирали

Альфа-спиралям белков в поле FT соответствует ключ HELIX, трансмембранным участкам - TRANSMEM.

С помощью скрипта python (листинг 1) было найдено 0 белков с альфа-спиралями и 956 белков с трансмембранными участками. Подобные результаты противоречат представлениям, согласно которым большинство трансмембранных участков формируются альфа-спиралями. Это может быть связано с недостаточной изученностью данного протеома, так как ключ HELIX обычно добавляется при изучении вторичной структуры по экспериментальным данным, а ключ TRANSMEM может ставиться автоматически. Также возможно, что из-за того, что трансмембранные участки чаще всего являются альфа-спиралями, то последние просто подразумеваютя в записе ключа TRANSMEM, если не указано иное.

Листинг 1. Код для подсчета количества белков с трансмембранными участками и альфа-спиралями.

    import gzip
    helix_flag, transmem_flag, helix_id_flag, transmem_id_flag = 0, 0, 0, 0
    with gzip.open('UP000011524.swiss.gz.', 'rt') as f:
        for line in f:
            if line.startswith('ID'):
                if helix_flag > 0:
                    helix_id_flag += 1
                    helix_flag = 0
                if transmem_flag > 0:
                    transmem_id_flag += 1
                    transmem_flag = 0
            if line.startswith('FT   HELIX'):
                helix_flag += 1
            if line.startswith('FT   TRANSMEM'):
                transmem_flag += 1
        if helix_flag > 0:
            helix_id_flag += 1
        if transmem_flag > 0:
            transmem_id_flag +=1
    print('Количество белков с альфа-спиралями:', helix_id_flag)
    print('Количество белков с трансмембранными участками:', transmem_id_flag)
    

Оценка количества ферментов в протеоме

При помощи поисковых запросов в базе UniProtKB был проведен анализ количества белков, обладающих ферментативной активностью, в протеоме UP000011524.


    1 запрос: (proteome:UP000011524) AND (EC:*)
    Результат: 550
    

    2 запрос: (proteome:UP000011524) AND (cc_catalytic_activity:*)
    Результат: 472
    

Различия в полученных результатах можно объяснить тем, что белки могут проявлять ферментативную активность, не связанную с катализом, поэтому второй запрос более специфичен и показывает не все белки, являющиеся ферментами. В связи с этим, поиск по EC-кодам более точен для выполнения поставленной задачи.