Для практикума я взял первый белок из поисковой выдачи, существование которого достоверно на уровне Protein existence. Annotation score белка - 5/5. Ссылка на запись о белке.
5-формаминоимидазол-4-карбоксамид-1-β-D-рибофуранозил-5'-монофосфат-синтетаза. У метанобактерий принимает участие в синтезе пуринов de novo.
Для этого задания не пришлось использовать bash, хватило поиска по файлу. Действовал строго в соответствии с инструкцией. Длина и атомная масса не указаны в именованных полях, а приводятся в поле Sequence (единицы измерения - AA и MW соответсвенно).
Приятным совпадением оказалось, что в 100, 90, 50 кластерах этот белок является репрезентативным. В 100 и 90, к тому же, является семенем кластера. В 90-кластере белки архей из одного рода, в 50-кластере - из одного филума.
Первым делом узнаем, есть ли белок, идентичный по функции, среди бактерий или эукариот: (protein_name:"5-formaminoimidazole-4-carboxamide-1-(beta)-D-ribofuranosyl 5'-monophosphate synthetase") NOT (taxonomy_id:2157) AND (existence:2)
Достоверных белков (есть в транскриптоме) найдено не было. Среди недостоверных есть пара-тройка среди бактериальных и один у насекомого... (Frankliniella fusca)
Посмотрим белки из того же семейства белков внутри семейства археи: (family:"phosphohexose mutase family") AND (taxonomy_id:196117) NOT (protein_name:"5-formaminoimidazole-4-carboxamide-1-(beta)-D-ribofuranosyl 5'-monophosphate synthetase")
Достоверные находки: Фосфоглюкозамин-мутаза, Маннозофосфат-мутаза.
Наконец, найдём белок, катализирующий следующую в метаболическом пути реакцию: (cc_catalytic_activity:"CHEBI:58467") AND ((organism_id:2190) OR (organism_id:243232))
Им оказался белок инозинмонофосфат-циклогидролаза. Ссылка на запись о белке.