|
|
Профили
Из семейства Pfam прошлого практикума был выбрано подсемейство семейства PF04821 из белков таксона A (Arthropoda) с доменной архитектурой 2 (TIMELESS + TIMELESS_C).
Все выровненные последовательности 2_A_PF04821 были помещены в файл. Программами hmm2build и hmm2calibrate был составлен и откалиброван профиль.
С помощью таблицы были получены идентификаторы всех белков, имеющих домен TIMELESS.
Программой hmm2search был произведен поиск откалиброванным профилем по всем белкам Uniprot, включающим хотя бы один домен семейства. Записи были переданы в файл.
На отдельном листе ("hmm") в таблице был составлен "Gold standard" из белков, включающих домен из подсемейства.
Там же были подсчитаны TP, TN, FP, NP, R и PPV.
Таблица 1. Поиск порога E-value.
e-value |
TP |
TN |
FP |
FN |
R |
PPV |
2.2e-75 |
23 |
103 |
61 |
0 |
1 |
0,273 |
3.9e-119 |
22 |
159 |
5 |
1 |
0,957 |
0,815 |
4e-179 |
21 |
163 |
1 |
2 |
0,913 |
0,955 |
7e-196 |
17 |
163 |
1 |
6 |
0,739 |
0,944 |
9.3e-204 |
11 |
164 |
0 |
12 |
0,478 |
1 |
Из таблицы видно, что, возможно, наилучшим порогом E-value будет 4e-179, с чувствительностью, равной 0,913, и
избирательностью, равной 0,955.
|
|
|