Поиск протеома, соответствующего геномной сборке
Ниже перечислены индентификаторы геномной сборки и протеома Cysteiniphilum sp. QT6929, статус протеома, а также ссылки на соответствующие страницы из баз данных.
1. Идентификатор сборки RefSeq: GCF_030035755.1;
2. Ссылка на страницу из базы NCBI Datasets Genome, которая соответствует этой сборке;
3. Идентификатор последней версии сборки INSDC: GCA_030035755.1;
4. Поисковый запрос по UniProt Proteomes, который выдал протеом: (genome_assembly:GCA_000026045.1). Ссылка на результат запроса;
5. Идентификатор протеома: UP001225964;
6. Статус протеома: исключенный (Status: Excluded (delayed for further analysis)).
Поиск и скачивание референсного протеома
Так как протеом, соответствующий геномной сборке рассматриваемой бактерии, не является референсным, то есть необходимость продолжать поиск протеомов из того же таксона или таксонов более высокого ранга. Был произведен поиск в роде Cysteiniphilum В результате поиска был найдн один референсный протеом у вида того же рода. Идентификатор протеома: UP000636949. Поисковый запрос для этого протеома в UniProt Proteomes: (taxonomy_id:2056700) AND (proteome_type:1).
Команда для скачивания: wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=%28%28proteome%3AUP000636949%29%29' -O UP000636949.swiss.gz
Оценка числа белков, содержащих альфа-спирали
Далее стояла задача оценить количество белков, содержащих альфа-спирали или трансмембранные участки. Для их подсчета был написан скрипт на Python.
Белков с альфа-спиралями: 0
Белков с трансмембранными участками: 583
С биологической точки зрения такое расхождение выглядит противоречиво, поскольку трансмембранные домены мембранных белков чаще всего представлены альфа-спиралями. Однако это объясняется особенностями аннотации: альфа-спирали обычно требуют экспериментально подтверждённой трёхмерной структуры, тогда как белки с тренсмембранными участками часто основана на компьютерных предсказаниях. Поэтому полученные оценки отражают не столько биологическую реальность, сколько неполноту существующих аннотационных данных.
Оценка числа ферментов в протеоме
В результате поискового запроса (proteome:UP000636949) AND (ec:*) в базе данных UniProt было обнаружено 565 записей, тогда как по запросу (proteome:UP000636949) AND (cc_function:enzyme) нашлось всего 34. Такая разница объясняется особенностями аннотации: в контролируемом словаре раздела CC (Comments) авторы не всегда используют конкретное слово "enzyme", заменяя его описательными конструкциями вроде “this protein catalyzes the reaction...”. В то же время возможна и обратная ситуация: функция белка уже охарактеризована и в тексте фигурирует маркер "enzyme", однако официальный EC-номер ему еще не присвоен. Для более полного охвата потенциальных ферментов можно провести поиск по онтологии генов (Gene Ontology). Запрос (proteome:UP000636949) AND (GO:0003824), нацеленный на термин catalytic activity, выдает 1042 записей. Тот факт, что это число превышает результаты предыдущих двух поисков, закономерен: GO-термины часто присваиваются автоматически на основании биоинформатических предсказаний или гомологии, даже если конкретная биохимическая реакция еще не была подтверждена экспериментально.