![]() |
![]() |
| Рисунок 2. Гистограмма весов находок. | Рисунок 3. Диаграмма весов находок. |
Затем для полученных данных были построена ROC-кривая (Receiver Operator Characteristic) — кривая, которая наиболее часто используется для анализа качества моделей (показывает зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров). Для построения кривой были определены:
TP (True Positives) — верно классифицированные положительные примеры (так называемые истинно положительные случаи). Это количество последовательностей, расположенных выше порога и достоверно содержащих искомый домен;
TN (True Negatives) — верно классифицированные отрицательные примеры (истинно отрицательные случаи). Это количество последовательностей, расположенных ниже порога и не содержащих искомый домен;
FP (False Positives) — отрицательные примеры, классифицированные как положительные (ошибка II рода, ложно положительные случаи). Это количество последовательностей, расположенных выше порога, но не содержащих домен;
FN (False Negatives) — положительные примеры, классифицированные как отрицательные (ошибка I рода, ложно отрицательные примеры). Это количество последовательностей, расположенных ниже порога и содержащих домен;
(SP) — специфичность, доля истинно отрицательных случаев, которые были правильно идентифицированы моделью (т.е. доля предсказанных белков, не содержащих домен, от общего количества последовательностей, известно не содержащих этот домен): SP = TN/(TN+FP);
(SE) — чувствительность, доля истинно положительных случаев (т.е. доля предсказанных белков, содержащих домен, от общего количества последовательностей, известно содержащих домен). Вышеупомянутые показатели считаются по следующим формулам: SE = TP/(TP+FN).
Таблица с данными, полученными для построения ROC-кривой нашего профиля приведена ниже.
Таблица 1.
|
cutoff |
TP |
FP |
FN |
TN |
Sensitivity |
Specificity |
1-Specificity |
PPV |
|
200,5 |
25 |
907 |
0 |
13 |
1 |
0,0141304 |
0,98586957 |
0,026824 |
|
270,5 |
25 |
776 |
0 |
144 |
1 |
0,1565217 |
0,84347826 |
0,031211 |
|
350 |
25 |
712 |
0 |
208 |
1 |
0,226087 |
0,77391304 |
0,0339213 |
|
460,5 |
25 |
705 |
0 |
215 |
1 |
0,2336957 |
0,76630435 |
0,0342466 |
|
510 |
25 |
657 |
0 |
263 |
1 |
0,2858696 |
0,71413043 |
0,0366569 |
|
570 |
25 |
566 |
0 |
354 |
1 |
0,3847826 |
0,61521739 |
0,0423012 |
|
620 |
25 |
365 |
0 |
555 |
1 |
0,6032609 |
0,39673913 |
0,0641026 |
|
679 |
25 |
97 |
0 |
823 |
1 |
0,8945652 |
0,10543478 |
0,204918 |
|
730 |
25 |
36 |
0 |
884 |
1 |
0,9608696 |
0,03913043 |
0,4098361 |
|
789,9 |
23 |
12 |
2 |
908 |
0,92 |
0,9869565 |
0,01304348 |
0,6571429 |
|
813 |
21 |
8 |
4 |
912 |
0,84 |
0,9913043 |
0,00869565 |
0,7241379 |
|
856,1 |
6 |
0 |
19 |
920 |
0,24 |
1 |
0 |
1 |

Рисунок 4. ROC-кривая
В случае, если мы хотим найти всех представителей выбранного таксона (класс Clostridia) с целевым доменом RF-1 (PF00472), включенных в итоговое выравнивание (25 последовательностей), и допускаем наличие ложно положительных находок, то нам придется принять значение cutoff = 758,9. И если мы не хотим обнаружить ни одной ложной находки, в таком случае принимаем значение Cutoff = 851,9.
Таблица 2.
|
cutoff=758,9 |
Истинные классы |
cutoff=851,9 |
Истинные классы |
||||
|
1 |
0 |
1 |
0 |
||||
|
предсказанные классы |
1 |
25 |
15 |
предсказанные классы |
1 |
13 |
0 |
|
0 |
0 |
905 |
0 |
12 |
920 |
||
На мой взгляд, данный профиль является неэффективным для поиска: если по нему находятся все целевые последовательности, список находок включает в себя 37,5% (15/(15+25)) побочных находок; если список находок на 100% состоит из достоверных находок, то он находит лишь 52% (13/25) целевых последовательностей.
© Енькова Анна, 2018 |