Получение паттерна в банке Prosite
Паттерн: P-x(2)-[LIVMF](2)-[LIVMS]-x-[GDN]-x(3)-[DENL]-x(3)-[LIVM]-x-E-x(4)-[GNQKRH]-[LIVM]-[AP]
По данному мне белку было найдена два паттерна: PS00962 (Ribosomal_S2_1) и PS00963 (Ribosomal_S2_20) Был взят паттерн для второго белка
Описание семейства: S2 принадлежит семейству рибосомальных белков, которая, на основании схожести последовательностей, объединяет:
Белки S2 содержат от 235 до 394 аминокислот. Содержит два консерватиных региона: в N-конце и в центральной части (для разбора был взят именно второй)
Точность:90.19%
Чувствительность: 84.62%
Создание паттерна
Паттерн: P-X(2)-[LMI]-F-X-X-D-P-[RK]-K-E-X(2)-A-X(2)-E-A-X(2)-L-X-[IV]-P
Для создания паттерна были выбраны: Из Firmicutes: RS2_ANOFW, RS2_BACA, RS2_BACAA, RS2_BACAC, RS2_BACAH, RS2_BACAN, RS2_BACC0, RS2_BACC1, RS2_BACC2, RS2_BACC3;
Из Cyanobacteria: RS_ACAM1, RS2_CYAA5, RS2_CYAP4, RS2_CYAP8, RS2_GLOVI, RS2_MICAN, RS2_NOSP7, RS2_SPIPL, RS2_SYNE7, RS2_SYNJA. Впрочем, их хватило только на создание паттера на 287 найденных последовательностей
Этот паттерн близок по попаданию к паттерну оригинальному: 94 попадания против 94 по таксону. Однако в то же самое время:
1. Число верных находок ("True positive hits", TP): 86
2. Число ложных находок ("False positive hits", FP): 8
3. Число ненайденных белков подсемейства (ложноотрицательных результатов, "False negatives", FN): 8
4. Чувствительность: 91,5%
5. Селективность: 91,5%