Учебный сайт Олеси Климчук

Профили

По множественному выравниванию pf06833_firmicutes.aln аминокислотных последовательностей белков из UniProt, содержащих домен MdcE и принадлежащих бактериям, отобранным из филума Firmicutes для реконструкции филогенетического дерева (на данном филогенетическом дереве отобранные белки образовали отдельную кладу), с помощью скрипта Prep4HMMer.py был получен файл в формате "Stockholm": pf06833_firmicutes.stock
Cписок отобранных белков: Gold_standard.txt

Командой ./hmmbuild pf06833_firmicutes.prof pf06833_firmicutes.stock был построен НММ-профиль: pf06833_firmicutes.prof

По файлу, содержащему аминокислотные последовательности всех белков из UniProt, содержащих домен MdcE (всего 323 белка), был проведён поиск с помощью построенного НММ-профиля:
./hmmsearch -o pf06833_10.hmm -E 1e-10 pf06833_firmicutes.prof pf06833_full.fasta
./hmmsearch -o pf06833_100.hmm -E 1e-100 pf06833_firmicutes.prof pf06833_full.fasta

Таким образом, были получены следующие файлы:
pf06833_10.hmm
pf06833_100.hmm

Для результата поиска при e-value = 1e-10 с помощью скрипта counter.py по файлу pf06833_10.xlsx были подсчитаны следующие параметры:
• TP = 20
• FP = 301
• FN = 0
• TN = 2
• ("Positive prediction value" или "Избирательность") PPV = TP/(TP+FP) = 20/321 = 6%
• ("Recall" или "True positive rate" или "Чувствительность") R = TP/(TP+FN) = 20/20 = 100%

Для результата поиска при e-value = 1e-100 с помощью скрипта counter.py по файлу pf06833_100.xlsx были подсчитаны следующие параметры:
• TP = 19
• FP = 22
• FN = 1
• TN = 281
• ("Positive prediction value" или "Избирательность") PPV = TP/(TP+FP) = 19/41 = 46%
• ("Recall" или "True positive rate" или "Чувствительность") R = TP/(TP+FN) = 19/20 = 95%

Таким образом, при e-value = 1e-10 поиск оказывается малоизбирательным и чрезмерно чувствительным, находится множество фальшивых позитивов. При e-value = 1e-100 поиск становится значительно более избирательным.

Дата последнего изменения: 29.05.14

© Олеся Климчук, 2012