Простейший профиль: частотная матрица.
- Обработанное программой pfw выравнивание.
Файл.msf.
Веса строк перестали быть равными 1.
- Создание профиля програмой pfmake (pfmake xxx.msf blosum62.cmp ).
Файл.txt.
- Поиск по профилю в файле, содержащем бактериальные последовательности.
pfsearch -C3.0 -f patt_pfmake.txt bacteria.fasta > my.pfsearch
- Анализ результатов
Найдена последовательность
Вес > 30 - 94
Вес > 20 - 762
Всего - 832
Excel-файл с обработкой результатов.
Число верных находок, TP=151
Число ложных находок, FP=681
Число ненайденных белков подсемейства, FN=0
Чувствительность TP/(TP+FN)=1
Селективность TP/(TP+FP)=0,18
ROC-кривая:

Первые 35 находок, обладающие наибольшим счетом, оказались ложными, из-за чего ROC-кривая имеет такой вид.
По той же причине селективность сначала резко возрастает от 0 до 0,512(максимум), а затем постепенно падает.
Однако даже при отбрасывании первых ложных находок результат работы программы выглядит явно хуже, чем поиски по паттерну или профилю, что показывает ROC-кривая (наличие ложных результатов с большим счетом искривляют ее).
©Турал Я.Я.