В работах первого семестра использовалась сборка генома Halobacterium salinarum, доступная по ссылке: https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_000006805.1/. Она имеет идентификатор GCF_000006805.1, совпадающий в INSDC и RefSeq. Для поиска соответсвующего протеома в UniProt Proteomes использовался поисковый запрос (genome_assembly:GCA_000006805.1). Выданный по данному запросу протеом имеет идентификатор UP000000554 и является референсным для H.salinarum.
Для скачивания протеома была использована следующая команда:
curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000000554)' > UP000000554.swiss.gz
С помощью Python было подсчитано количество записей, у которых в поле FT содержится ключ “HELIX” и ключ “TRANSMEM”, т.е. количество белков в протеоме, для которых предполагается наличие альфа-спиралей и трансмембранных участков. В первом случае было найдено 5 белков, во втором – 464. Очевидно, что первая из приведённых оценок неверна. По-видимому, дело в том, что ключ “HELIX” используется только для хорошо изученных белков, пространственная структура которых точно известна.
Скрипты доступны по ссылке: https://docs.google.com/document/d/1b6Oz7NtzWQf9Q1_zlPzr2dLemDjShGO7HJ7XapoP1O4/edit?usp=sharing
Также была проведена оценка количества ферментов в протеоме. Для поиска ферментов из протеома H.salinarum в UniProtKB использовались поля Enzyme classification (EC) и Catalytic Activity. Ниже приведены запросы и количество результатов по ним:
(proteome:UP000000554) AND (ec:*) – 623 результата;
(proteome:UP000000554) AND (cc_catalytic_activity:*) – 382 результата;
(proteome:UP000000554) AND (cc_catalytic_activity:*) OR (ec:*) AND (proteome:UP000000554) – 628 результатов.
Можно заметить, что результаты запросов отдельно по коду EC и по каталитической активности достаточно сильно перекрываются – почти все белки, для которых есть информация о каталитической активности, имеют код EC (но не наоборот). В целом, мне представляется маловероятным, что из чуть менее чем 2500 белков микроорганизма только 628 обладают какой-либо ферментативной активностью, так что для более точной оценки следует использовать иные способы выбора белков.