Профили

Выбор подсемейства и составление Gold Standard

Сначала из выравнивания выборки выделили последовательности подсемейства (домены семейства PF002449 из белков таксона Actinobacteria с доменной архитектурой 3 - трехдоменная (Glyco_hydro_42, Glyco_hydro_42M и Glyco_hydro_42C)) в отдельный файл aligned.stk, сохранив его в стокгольмском формате с помощью программы JalView.


Построение профиля

Для построения профиля сервере kodomo воспользовались пакетом HMMER 3.0. Воспользовались программой hmmbuild:

hmmbuild align.hmm aligned.stk


Поиск по белкам Uniprot

Программой hmmsearch проведили поиск полученным профилем по всем белкам Uniprot, включающим хотя бы один домен семейства:

hmmsearch -o search.out align.hmm uniprot.fasta


Оценка параметров профиля

В таблице Excel приведены характеристики работы профиля при разных E-value:

E-value = 10-4
TP = 8;
FP = 1072;
TN = 84;
FN = 0.

При этом чувсвтвительность (R) равна 1, а избирательность (PPV) - 0,0074

E-value = 1,00E-171
TP = 8;
FP = 122;
TN = 1034;
FN = 0.

При этом чувсвтвительность (R) равна 1, а избирательность (PPV) - 0,0615

Вывод

Чувствительность равна 1, а избирательность значительно ниже (0,0074) при E-value равном 10-4. Однако, если понизить E-value до 1,00E-171 (130 первых находок), избирательность можно повысить лишь до 0.0615. Последнее значение хоть и выше на порядок, но, тем не менее, оно слишком мало, чтобы говорить, что поиск по профилю был безупречным.