на главную страницу
1. Рассчет веса строк выравнивания программой pfw
Полученный файл отличается от исходного выравнивания одним - изменились цифры характеризующие
вес для каждого белка. Первоначально все они были равны единице.
Веса
2. Создание профиля программой pfmake
pfmake rs6_al.msf /usr/share/pftools23/blosum62.cmp > made_pro.txt
Профиль созданный программой.
3. Поиск по созданному профилю в банке bacteria
Удачный порог =3, с ним найдено 832 белка.
pfsearch -C3.0 -f made_pro.txt bacteria.fasta > my.pfsearch
4. Анализ результатов
Последовательностей найдено - 831.
True positive hits, TP - 47
False positive hits, FP - 784
False negatives FN - 0
Чувствительность TP/(TP+FN) - 1
Селективность TP/(TP+FP) - 5,65%
Аналогично предыдущему практикуму анализ проводился по порогу, при котором селективности
стремились к селективности моего паттерна.
Порог - 89,3617%. Однако селективности выданные программой находятся на уровне до 9 процентов.
True positive hits, TP -
False positive hits, FP -
False negatives FN - 0
Чувствительность TP/(TP+FN) - 1
Селективность TP/(TP+FP) - %
ROC-кривая для результатов поиска белков программой
Причина
Выдача белков, произведенная программой получилась весьма интересной: правильные белки, составляющие True positives находятся в соответствии со своими весами в середине массива. Поэтому график roc-кривой
имеет такой вид. И это затрудняет получить селективность т.к. в ряду белков селективности сначала возрастают, а потом убывают достигнув максимума на уровне 9%
Книга Excel показывает это. Третий лист в ней, "cheat" содержит массив белков, с ограничением сверху, так что интересующие нас белки имеют наивысшие веса, но и это не помогло посчитать селективность.
©Джумашев