Для задания я выбрал построения профиля семейства,которое я определил как состоящее из белков протеобактерий с доменом гликозилтрансферазы семейства 20
PF00982.
Его функция - синтез трегалозо-6-фосфата для регулирования осмотического давления в клетке.
Этот белок представлен в базе данных только архитектурой Glyco_trans_20 с одиночным доменом.
В Uniprot аннотированных записей таких белков 27 штук.
Их легко найти по запросу "database:(type:pfam id:PF00982) taxonomy:proteobacteria AND reviewed:yes"
Было построено выравнивание и по нему построен профиль который потом был откалиброван.
Поиск по профилю дал 86 находок. Все они такой же архитектуры. В распределении весов виден серьезный скачок при переходе от протеобактерий к другим таксонам.
Была построена ROC кривая для разных значений порога. Из нее мне стало понятно, что необходимо выбирать порог веса в размере 400 и сформулировать правило так: "белок принадлежит семейству если вес его выравнивания больше 400". При таком пороге находятся 27 из 28 записей исходного семейства по данному паттерну. Файл со всеми данными можно найти здесь.
Positive in Swiss-Prot | Negative in Swiss-Prot | |
Positive in profile | 27 | 0 |
Negative in profile | 1 | 58 |
Sensitivity=96.43% | Specificity=100% | Precision=100% |
Таким образом, это правило дает замечательный критерий для различения гликозилтрансфераз семейства 20 протеобактерий от принадлежащих другим организмам, так как у него стопроцентные специфичность и точность, а также высокая чувствительность. Я считаю этот профиль подходящим для поставленной задачи.