Поиск протеома
В ходе практикума был найден протеом, соответствующий сборке археи Natronococcus occultus SP4. Поиск проводился в базе NCBI Datasets Genome по идентификатору сборки без версии - с целью определить актуальную запись. Страница сборки: GCF_000328685.1. Далее по полю Genome Assembly был выполнен поиск в UniProt Proteomes.
genome_assembly:GCA_000328685.1
В результате был найден протеом с идентификатором UP000010878 со статусом reference.
Референсный протеом
Референсный протеом был выбран с помощью поскового запроса:
taxonomy_id: 694430 AND proteome_type:referenceИскомым протеомом оказался изначальный с идентификатором UP000010878. После данных процедур был сформирован запрос к UniProtKB и выполнено скачивание данных через REST API:
wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=proteome:UP000010878' -O UP000010878.swiss.gz
Альфа-спирали и трансмембранные участки
Для оценки числа белков с альфа-спиралями и трансмембранными участками анализировалось поле FT, подсчет выполнялся с помощью bash-конвейера. Для альфа-спиралей не было найдено ни одного совпадения по конвейеру:
zgrep -E 'FT HELIX|//' UP000010878.swiss.gz | grep -B1 'FT HELIX' | grep '//' | wc -l
Для трансмембранных участков было найдено 891 совпадение по конвейеру:
zgrep -E 'FT TRANSMEM|//' UP000010878.swiss.gz | grep -B1 'FT TRANSMEM' | grep '//' | wc -l
Выяснилось, что белков с трансмембранными участками существенно больше, чем с альфа-спиралями, что несколько противоречит привычному соотношению подобных белков, так как в природе альфа-спирали встречаются значительно чаще. Но различия объясняются неполнотой аннотаций, а также тем, что часть белков с альфа-спиралями может не иметь соответствующего ключа HELIX.
Оценка числа ферментов
Для оценки количества ферментов использовалось два два поисковых запросов на базе UniProt.
proteome:UP000010878 AND ec:*
proteome:UP000010878 AND cc_catalytic_activity:*
Эти значения различаются, так как аннотации могут быть неполными, и некторые из выданных значений начиаться на "ес" и при этом не обладать каталитической активностью. Поэтому более точным значением является выданное по второму запросу.