Профили

Отчет

Пакетом HMM 3.0 я создал профиль, для которого использовал выборку из 19 эукариотических белков с доменной архитектурой PAZ, piwi из предыдущего практикума, далее нашел все белки в юнипроте, содержащие домен piwi(их оказалось 1003), и провел поиск по профилю этих белков. С параметром E-value 0.0001 программа hmmsearch решила, что все белки с доменом piwi входят в этот профиль.
Теперь, используя в юнипроте замысловатый запрос(почему на pfam нельзя просто скачать все белки с заданной архитектурой? По крайней мере, я не понял, как это делается) я достал список с id белков искомого подсемейства, который буду использовать в качестве золотого стандарта.
Также, используя hmmsearch, отсекая все белки с E-value домена > 1e-110 и с помощью екселя добыв из результата id белков я получил другой список с id белков, найденных этой программой.
Используя собственноручно написанный скрипт на питоне , я получил значения tp, tn, fp, fn, recall и ppv.

статистика


белков в золотом стандарте - 153
белков в выдаче hmmsearch - 254
белков в семействе - 1003
tp - 106
tn - 702
fp - 148
fn - 47
recall = 0.693
ppv = 0.417
Чувствительность и избирательность не очень высоки, но, даже если сильно ужесточить правила отбора для белков, оставив из запроса лишь половину, то избирательность достигнет лишь 0.5, в то время как чувствительность упадет ниже 0.4 Если же ослабить условия для белков, то чувствительность растет не очень быстро, в то время как избирательность падает очень сильно.