Профили
По множественному выравниванию pf06833_firmicutes.aln
аминокислотных последовательностей белков из UniProt, содержащих домен MdcE и принадлежащих бактериям, отобранным из филума Firmicutes
для реконструкции филогенетического дерева
(на данном филогенетическом дереве отобранные белки образовали отдельную кладу),
с помощью скрипта Prep4HMMer.py был получен файл в формате "Stockholm":
pf06833_firmicutes.stock
Cписок отобранных белков: Gold_standard.txt
Командой ./hmmbuild pf06833_firmicutes.prof pf06833_firmicutes.stock
был построен НММ-профиль:
pf06833_firmicutes.prof
По файлу, содержащему аминокислотные последовательности всех белков из UniProt, содержащих домен MdcE (всего 323 белка),
был проведён поиск с помощью построенного НММ-профиля:
./hmmsearch -o pf06833_10.hmm -E 1e-10 pf06833_firmicutes.prof pf06833_full.fasta
./hmmsearch -o pf06833_100.hmm -E 1e-100 pf06833_firmicutes.prof pf06833_full.fasta
Таким образом, были получены следующие файлы:
pf06833_10.hmm
pf06833_100.hmm
Для результата поиска при e-value = 1e-10 с помощью скрипта counter.py
по файлу pf06833_10.xlsx были подсчитаны следующие параметры:
TP = 20
FP = 301
FN = 0
TN = 2
("Positive prediction value" или "Избирательность") PPV = TP/(TP+FP) = 20/321 = 6%
("Recall" или "True positive rate" или "Чувствительность") R = TP/(TP+FN) = 20/20 = 100%
Для результата поиска при e-value = 1e-100 с помощью скрипта counter.py
по файлу pf06833_100.xlsx были подсчитаны следующие параметры:
TP = 19
FP = 22
FN = 1
TN = 281
("Positive prediction value" или "Избирательность") PPV = TP/(TP+FP) = 19/41 = 46%
("Recall" или "True positive rate" или "Чувствительность") R = TP/(TP+FN) = 19/20 = 95%
Таким образом, при e-value = 1e-10 поиск оказывается малоизбирательным и чрезмерно чувствительным, находится множество фальшивых позитивов. При e-value = 1e-100 поиск становится значительно более избирательным.