Выбор подсемейства и составление Gold Standart
Сначала из выборки выравнивания были выделены последовательности доменов семейства PF00134 таксона Eutheria трехдоменной архитектуры (F-box,Cyclin_N,Cyclin_C) в отдельный файл.
Построение профиля
Для построения профиля воспользовались программой hmm2build и построили профиль по выравниванию. Далее программой hmm2calibrate откалибровали профиль.[результат]

Для проверки профиля использовался файл в fasta-формате со всеми белками Uniprot, включающими хотя бы один домен из Pfam-семейства PF00134. C помощью программы hmm2search провели поиск откалиброванным профилем по всем белкам Uniprot из этого списка. Выдача программы с находками в файле. Из выдачи программы составили список идентификаторов последовательностей белков и полученных для данной последовательности значений E-value. Составили таблицу Excel, в которой приведены характеристики работы профиля при разных E-value.
E-value=6e-14
TP=21
TN=443
FP=349
FN=0
При этом, чувствительность (R) равна 1, а избирательность (PVV)- 0,056757
E-value=3e-20
TP=21
TN=713
FP=79
FN=0
При этом, чувствительность (R) равна 1, а избирательность (PVV)- 0,21
Вывод:
Чувствительность равна 1, а избирательность значительно ниже (0,056) при E-value равном 6e-14.Однако, если понизить E-value до 3e-20 (первые 100 находок), избирательность можно повысить лишь до 0,21, но, тем не менее, слишком мало, чтобы говорить о том, что поиск по профилю был безупречный.
© Boskhomdzhieva Baina, 2014