Простейший профиль: частотная матрица.

  1. Обработанное программой pfw выравнивание.
    Файл.msf.
    Веса строк перестали быть равными 1.
  2. Создание профиля програмой pfmake (pfmake xxx.msf blosum62.cmp ).
    Файл.txt.
  3. Поиск по профилю в файле, содержащем бактериальные последовательности. pfsearch -C3.0 -f patt_pfmake.txt bacteria.fasta > my.pfsearch
  4. Анализ результатов Найдена последовательность
    Вес > 30 - 94
    Вес > 20 - 762
    Всего - 832
    Excel-файл с обработкой результатов.
    Число верных находок, TP=151
    Число ложных находок, FP=681
    Число ненайденных белков подсемейства, FN=0
    Чувствительность TP/(TP+FN)=1
    Селективность TP/(TP+FP)=0,18

    ROC-кривая:

    Первые 35 находок, обладающие наибольшим счетом, оказались ложными, из-за чего ROC-кривая имеет такой вид.
    По той же причине селективность сначала резко возрастает от 0 до 0,512(максимум), а затем постепенно падает.
    Однако даже при отбрасывании первых ложных находок результат работы программы выглядит явно хуже, чем поиски по паттерну или профилю, что показывает ROC-кривая (наличие ложных результатов с большим счетом искривляют ее).
    ©Турал Я.Я.