В миниобзоре данные о геноме Thermovirga lienii DSM 17291 были взяты из геномной сборки NCBI RefSeq GCF_000233775.1 [1]. Последняя версия данной сборки в INSDC (GenBank) имеет идентификатор - GCA_000233775.1, из RefSeq GCF_000233775.1 сборка удалена в связи с ошибкой в аннотации RefSeq. В результате поиска генома Thermovirga lienii DSM 17291 в UniProt по запросу (genome_assembly:GCA_000233775.1) была найдена 1 запись с ID UP000005868, её статус - Reference proteome. Данный протеом не явяется избыточным.
Так как найденный выше протеом Thermovirga lienii DSM 17291 с ID UP000005868 имеет статут референсного,
использован был именно он.
Белковые записи принадлежащие данному протеому из UniProtKB были скачены через команду:
curl -o term2/pr8/UP000005868.swiss.gz
"https://rest.uniprot.org/uniprotkb/stream?format=txt&query=(proteome:UP000005868)&compressed=true".
Подсчет проводился по следующим командам:
Соотношение записей с ключом HELIX и записей с ключом TRANSMEM противоречит гипотезе, гласящей, что
большинство трансмембранных участков формируются альфа-спиралями.
Возможно, это может быть связано с тем, что ключ TRANSMEM добавляется автоматически, а ключ HELIX вносится
при наличии эксперементальных данных. Так что маленькое количество записей с ключом HELIX может быть объяснено
слабой изученностью протеома Thermovirga lienii DSM 17291.
В результате поискового запроса (proteome:UP000005868) AND (ec:*) было найдено 514 записей, а (proteome:UP000005868) AND (cc_function:enzyme) - 19. Это различие может быть объяснено тем, что авторы могут явно не упоминать слово "enzyme" в разделе CC (вместо этого, например, могут быть конструкции вида: "this protein catalyzes the reaction..."). С другой стороны, части белков может быть ещё не присвоен EC-номер, но слово "enzyme" может всё равно встречаться в описании. Можно также совершить поиск по номеру 0003824 GeneOnthology (GO), который обозначает catalytic activity, (proteome:UP000005868) AND (GO:0003824), найдено 945 записей [2]. Большее количество найденных записей по сравнению с первыми 2 является следствием того, что GO-номер может быть присвоен на основании предсказания или гомологии, даже если реакция не была точно охарактеризована.