Для задания я выбрал построения профиля семейства,которое я определил как состоящее из белков протеобактерий с доменом гликозилтрансферазы семейства 20
PF00982.
Его функция - синтез трегалозо-6-фосфата для регулирования осмотического давления в клетке.
Этот белок представлен в базе данных только архитектурой Glyco_trans_20 с одиночным доменом.
В Uniprot аннотированных записей таких белков 27 штук.
Их легко найти по запросу "database:(type:pfam id:PF00982) taxonomy:proteobacteria AND reviewed:yes"
Было построено выравнивание и по нему построен профиль который потом был откалиброван.
Поиск по профилю дал 86 находок. Все они такой же архитектуры. В распределении весов виден серьезный скачок при переходе от протеобактерий к другим таксонам.
Была построена ROC кривая для разных значений порога. Из нее мне стало понятно, что необходимо выбирать порог веса в размере 400 и сформулировать правило так: "белок принадлежит семейству если вес его выравнивания больше 400". При таком пороге находятся 27 из 28 записей исходного семейства по данному паттерну. Файл со всеми данными можно найти здесь.

| Positive in Swiss-Prot | Negative in Swiss-Prot | |
| Positive in profile | 27 | 0 |
| Negative in profile | 1 | 58 |
| Sensitivity=96.43% | Specificity=100% | Precision=100% |
Таким образом, это правило дает замечательный критерий для различения гликозилтрансфераз семейства 20 протеобактерий от принадлежащих другим организмам, так как у него стопроцентные специфичность и точность, а также высокая чувствительность. Я считаю этот профиль подходящим для поставленной задачи.