Практикум 8. UniProt Proteomes, EMBOSS

Поиск протеома, соответствующего геномной сборке

В миниобзоре данные о геноме Thermovirga lienii DSM 17291 были взяты из геномной сборки NCBI RefSeq GCF_000233775.1 [1]. Последняя версия данной сборки в INSDC (GenBank) имеет идентификатор - GCA_000233775.1, из RefSeq GCF_000233775.1 сборка удалена в связи с ошибкой в аннотации RefSeq. В результате поиска генома Thermovirga lienii DSM 17291 в UniProt по запросу (genome_assembly:GCA_000233775.1) была найдена 1 запись с ID UP000005868, её статус - Reference proteome. Данный протеом не явяется избыточным.

Поиск и скачивание референсного протеома

Так как найденный выше протеом Thermovirga lienii DSM 17291 с ID UP000005868 имеет статут референсного, использован был именно он. Белковые записи принадлежащие данному протеому из UniProtKB были скачены через команду:
curl -o term2/pr8/UP000005868.swiss.gz "https://rest.uniprot.org/uniprotkb/stream?format=txt&query=(proteome:UP000005868)&compressed=true".

Оценка числа белков, содержащих альфа-спирали

Подсчет проводился по следующим командам:

  1. Записи с ключом HELIX:
    zcat term2/pr8/UP000005868.swiss.gz | grep -c "^FT.*HELIX"
    Результат: 0 записей
  2. Записи с ключом TRANSMEM:
    zcat term2/pr8/UP000005868.swiss.gz | grep -C10 "^FT.*TRANSMEM" | grep -c "^--" | awk '{print ($1 == 0) ? 0 : $1 + 1}'
    Результат: 356 записей

Соотношение записей с ключом HELIX и записей с ключом TRANSMEM противоречит гипотезе, гласящей, что большинство трансмембранных участков формируются альфа-спиралями.
Возможно, это может быть связано с тем, что ключ TRANSMEM добавляется автоматически, а ключ HELIX вносится при наличии эксперементальных данных. Так что маленькое количество записей с ключом HELIX может быть объяснено слабой изученностью протеома Thermovirga lienii DSM 17291.

Оценка количества ферментов в протеоме

В результате поискового запроса (proteome:UP000005868) AND (ec:*) было найдено 514 записей, а (proteome:UP000005868) AND (cc_function:enzyme) - 19. Это различие может быть объяснено тем, что авторы могут явно не упоминать слово "enzyme" в разделе CC (вместо этого, например, могут быть конструкции вида: "this protein catalyzes the reaction..."). С другой стороны, части белков может быть ещё не присвоен EC-номер, но слово "enzyme" может всё равно встречаться в описании. Можно также совершить поиск по номеру 0003824 GeneOnthology (GO), который обозначает catalytic activity, (proteome:UP000005868) AND (GO:0003824), найдено 945 записей [2]. Большее количество найденных записей по сравнению с первыми 2 является следствием того, что GO-номер может быть присвоен на основании предсказания или гомологии, даже если реакция не была точно охарактеризована.

Список литературы

  1. Ссылка на страницу из NCBI Datasets Genome для сборки геномной сборки Thermovirga lienii DSM 17291, состояние записи на момент 05.04.26. https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_000233775.1/
  2. Ссылка на страницу из базы GO-номеров AmiGO для нужного номера, запрос был сделан 05.04.26. https://amigo.geneontology.org/amigo/term/GO:0003824