Выбор подсемейства и составление Gold Standard
Сначала из выравнивания выборки выделили последовательности подсемейства (домены семейства PF002449 из белков таксона Actinobacteria с доменной архитектурой 3 - трехдоменная (Glyco_hydro_42, Glyco_hydro_42M и Glyco_hydro_42C)) в отдельный файл aligned.stk, сохранив его в стокгольмском формате с помощью программы JalView.
Построение профиля
Для построения профиля сервере kodomo воспользовались пакетом HMMER 3.0. Воспользовались программой hmmbuild:
hmmbuild align.hmm aligned.stk
Поиск по белкам Uniprot
Программой hmmsearch проведили поиск полученным профилем по всем белкам Uniprot, включающим хотя бы один домен семейства:
hmmsearch -o search.out align.hmm uniprot.fasta
Оценка параметров профиля
В таблице Excel приведены характеристики работы профиля при разных E-value:
E-value = 10-4
TP = 8;
FP = 1072;
TN = 84;
FN = 0.
При этом чувсвтвительность (R) равна 1, а избирательность (PPV) - 0,0074
E-value = 1,00E-171
TP = 8;
FP = 122;
TN = 1034;
FN = 0.
При этом чувсвтвительность (R) равна 1, а избирательность (PPV) - 0,0615
Вывод
Чувствительность равна 1, а избирательность значительно ниже (0,0074) при E-value равном 10-4. Однако, если понизить E-value до 1,00E-171 (130 первых находок), избирательность можно повысить лишь до 0.0615. Последнее значение хоть и выше на порядок, но, тем не менее, оно слишком мало, чтобы говорить, что поиск по профилю был безупречным.