Профиль семейства белков

Целевое семейство белков.

Для задания я выбрал построения профиля семейства,которое я определил как состоящее из белков протеобактерий с доменом гликозилтрансферазы семейства 20 PF00982.
Его функция - синтез трегалозо-6-фосфата для регулирования осмотического давления в клетке. Этот белок представлен в базе данных только архитектурой Glyco_trans_20 с одиночным доменом. В Uniprot аннотированных записей таких белков 27 штук. Их легко найти по запросу "database:(type:pfam id:PF00982) taxonomy:proteobacteria AND reviewed:yes"

Построение профиля

Было построено выравнивание и по нему построен профиль который потом был откалиброван.

Поиск по профилю

Поиск по профилю дал 86 находок. Все они такой же архитектуры. В распределении весов виден серьезный скачок при переходе от протеобактерий к другим таксонам.

ROC-кривая и выбор порога

Была построена ROC кривая для разных значений порога. Из нее мне стало понятно, что необходимо выбирать порог веса в размере 400 и сформулировать правило так: "белок принадлежит семейству если вес его выравнивания больше 400". При таком пороге находятся 27 из 28 записей исходного семейства по данному паттерну. Файл со всеми данными можно найти здесь.

Оснвные показатели правила
Positive in Swiss-ProtNegative in Swiss-Prot
Positive in profile270
Negative in profile158
Sensitivity=96.43%Specificity=100%Precision=100%

Таким образом, это правило дает замечательный критерий для различения гликозилтрансфераз семейства 20 протеобактерий от принадлежащих другим организмам, так как у него стопроцентные специфичность и точность, а также высокая чувствительность. Я считаю этот профиль подходящим для поставленной задачи.


© Бусыгин Сергей, 2018