В мини-обзоре для бактерии Synechococcus elongatus PCC 7942 = FACHB-805 использовалась геномная сборка NCBI RefSeq GCF_000012525.1.
Ссылка на страницу данной сборки в базе NCBI Datasets Genome.
Идентификаторы последней версии сборки:
• RefSeq: GCF_000012525.1
• INSDC (GenBank): GCA_000012525.1
Далее нужно было найти протеом UniProt, который соответствует этой геномной сборке. Для этого в поисковой строке UniProt Proteomes был введен запрос genome_assembly:GCA_000012525. По этому запросу нашелся протеом с идентификатором UP000889800, который является референсным.
Так как найденный выше протеом для данной геномной сборки является референсным, а также имеет высокий уровень по оценке качества BUSCO, я выбрала его для выполнения заданий.
По поисковому запросу proteome:UP000889800 в UniProtKB были найдены записи о белках протеома. Для их скачивания была использована команда curl 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=(proteome:UP000889800)' > UP000889800.swiss.gz.
Для оценки количества белков, содержащих альфа-спирали, использовались конвейеры bash.
• Белки, содержащие альфа-спирали (ключ HELIX поля FT):
zgrep -e '^ID' -e '^FT *HELIX' UP000889800.swiss.gz | grep -B1 'HELIX' | grep '^ID' | wc -l
Результат: 38 белков.
• Белки, содержацие трансмембранные участки (ключ TRANSMEM поля FT):
zgrep -e '^ID' -e '^FT *TRANSMEM' UP000889800.swiss.gz | grep -B1 'TRANSMEM' | grep '^ID' | wc -l
Результат: 536 белков.
В результате оценки выяснилось, что белков с трансмембранными участками намного больше, чем белков с альфа-спиралями. Скорее всего, это связано с тем, что ключ HELIX добавляется в поле FT тогда, когда есть экспериментальные доказательства о вторичной структуре белка, поэтому он встречается только у хорошо изученных белков. Ключ TRANSMEM, наоборот, может присутствовать у белков на основе предсказанных данных, поэтому таких белков нашлось больше.
Оценки не являются точными. Оценка по количеству белков, содержащих альфа-спирали, сильно занижена, так как многие белки, скорее всего, недостаточно хорошо изучены. Оценка белков с трансмембранными участками также не является точной и, скорее всего, включает лишние результаты, так как трансмембранные участки не всегда являются альфа-спиралями.
Оценка числа белков, обладающих ферментативной активностью, производилась с помощью поисковых запросов в базе UniProtKB.
По запросу (proteome:UP000889800) AND (EC:*) нашлось 720 результатов.
По запросу (proteome:UP000889800) AND (cc_catalytic_activity:*) нашлось 578 результатов.
Расхождения в оценках могут быть связаны с тем, что поле Catalytic activity есть только у белков с подтвержденной каталитической активностью, а ЕС может быть не связан с каталитической активностью найденного белка, так как он может встречаться в других полях. Также, возможно, ЕС может присутствовать в результате предсказаний, основанных на активности похожих белков других штаммов или близких видов. Поэтому оценки не являются точными, так как оценка по ЕС включает лишние результаты, а оценка по наличию блока Catalytic activity может содержать не все белки, обладающие ферментативной активностью.