Практикум 8

Поиск протеома, соответствующего геномной сборке

  • Ссылка на страницу сборки в базе NCBI Datasets Genome
  • NCBI RefSeq assembly: GCF_000183745.1
  • Submitted GenBank assembly: GCA_000183745.1
  • Поисковый запрос: (genome_assembly:GCA_000183745.1)
  • Протеом является референсным, идентификатор: UP000008722
  • Поиск и скачивание референсного протеома

    Для поиска референсного протеома использовался запрос (taxonomy_id:187137) AND (proteome_type:1).

    С помощью команды curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000008722)' > UP000008722.swiss.gz протеом был загружен на kodomo.

    Оценка числа белков, содержащих альфа-спирали

    Для выполнения задания 3 был написал скрипт на питоне:

    
    filename = "UP000008722.swiss.gz"
    
    import gzip
    
    with gzip.open(filename, 'rt', encoding='utf-8') if file:
        h = 0
        t = 0
    
        f = file.read()
        records = f.split('//')
    
        for record in records:
            if not record.strip():
                continue
    
            has_helix = False
            has_transmem = False
    
            lines = record.strip().split('\n')
    
            for line in lines:
                if line.startswith('FT'):
                    if 'HELIX' in line:
                        has_helix = True
                    if 'TRANSMEM' in line:
                        has_transmem = True
    
            if has_helix:
                h += 1
            if has_transmem:
                t += 1
    
    print(f"Записей с альфа-спиралями {h}")
    print(f"Записей с трансмембранными участками {t}")
    

    После его запуска мы получили следующие результаты:

    Записей с альфа-спиралями: 0
    Записей с трансмембранными участками: 482

    Полученные результаты противоречат указанной в задании 3 информации о том, что трансмембранные участки чаще всего являются альфа-спиралями. Однако, возможно, полученные результаты связаны с тем, что то, что белок является трансмембранным, предсказывается по последовательности белка (как правило, в трансмембранных белках много гидрофобных аминокислот). Вторичную структуру белка определяют непосредственно по белку. Т.к. исследуемая бактерия не является модельным организмом, ее белки недостаточно исследованы (большинство белков получены на основе гомологии), поэтому установить точную вторичную структуру белка не представляется возможным. В связи с этим ключ HELIX в описание белков не добавляется, а ключ TRANSMEM в описании присутствует.

    Можно предположить, что белок довольно распространенный, и его последовательность не слишком консервативна, т.к. на 90 процентов совпадает с последовательностями белков 7 других видов.

    Оценка количества ферментов в протеоме

    Далее мы попытались оценить, сколько в референсном протеоме белков, обладающих какой-либо ферментативной активностью.

    По запросу (proteome:UP000008722) AND (cc_catalytic_activity:*) было найдено 460 белков.

    По запросу (proteome:UP000008722) AND (ec:*) найдено 598 белков.

    Возможно, такая разница в количестве ферментов обусловлено тем, что номер EC присутствует у всех ферментов, а поле cc_catalytic_activity есть не у всех ферментов.