Паттерн для поиска белков подсемейства
Был выбран отдел Firmicutes и белки:
RS12_BACSU
RS12_CLOTE
RS12_LACDA
RS12_LISMO
RS12_PEDPA
RS12_STRPN
Белки из других таксонов
RS12_CHLAB
RS12_CHLPN
RS12_PARUW
RS12_ARTAT
RS12_BIFLO
RS12_COREF
Паттерном PS00055 в Firmicutes находятся 154 белка
Паттерном K-x-R-{A}-[TS]-[VKQ]-{AL}-{R}-[QNK]-S-[DKT]-[SA]-P-A-L-[KN]-[NVKY]-[CGS] было найдено 53 последовательности, все они из Firmicutes.
Жирным шрифтом отмечены консервативные остатки выбранной группы,
которые не являются консервативными в контрольной
Следовательно нужно смягчит паттерн. В белке RS12_ALKMQ, который не нашелся эти паттерном этот участок:
стоит в 5 позиции A, Q в 16. Паттерн перепишем
K-x-R-{A}-[ATS]-[VKQ]-{AL}-{R}-[QNK]-S-[DKT]-[SA]-P-A-L-[KNQ]-[NVKY]-[CGS]
Этим паттерном найдены 55 последовательностей, решено смягчить его еще больше:
K-x-R-{A}-[ATS]-[VKQ]-{AL}-{R}-[QNK]-S-[DKT]-[SA]-P-A-L-[KNQ]-x-[CGS] - найдено 75, все из данного таксона.
K-x-R-x(2)-[VKQ]-{AL}-{R}-[QNK]-S-[DKT]-[SA]-P-A-L-[KNQ]-x-[CGS] - найдено 86, из них 3 из других таксонов.
Смягчаем K-x-R-x-{K}-{S}-{AL}-{R}-{R}-S-[DKT]-[SA]-P-A-L-[KNQ] - найдено 111, из них 90 только из нужного таксона
Было принято решение усилить паттерн
Здесь лучшие результаты:
[FKNRQ]-[ASPG]-R-x-[KRDATSV]-[AHITVKQL]-x(3)-S-x-[SA]-P-A-L 161, 135
[FKNRQ]-[ASPG]-R-x-[KRDATSV]-[AHITVKQL]-x(3)-S-[DKT]-[SA]-P-A-L 141, 127
И паттерн, сделанный по полному выравниванию:
[FKNRQ]-[ASPGK]-R-[EKYSQHRVT]-[STDAPKVQE]-[EAHITVKQL]-x-[AEKTSQYVWFG]-[AQNK]-S-[ADKTN]-[SA]-P-A-L - 173, 136 оказался ничуть не лучше предыдущих
Паттерн [FKNRQ]-[ASPG]-R-x-[KRDATSV]-[AHITVKQL]-x(3)-S-x-[SA]-P-A-L
Им находятся всего - 161 белок, белки данного таксона - 135
TP=135, FP=26, FN=19, чувствительность - 0,88, селективность - 0,84
Выравнивание
Голубым отмечен участок, по которому строился паттерн
Синим отмечен исходный паттерн