Выделяю из семейства Pfam подсемейство вида "домены семейства PF01843 из белков таксона Viridiplantae с доменной архитектурой DIL". Выбор основан на том, что на дереве выборки домены данного подсемейства с двумя разными архитектурами образуют отдельную кладу, архитектура с Myozin_head - отдельную ветвь.
Задача: на основании моей выборки построить профиль, выделяющий данное подсемейство из всего семейства Pfam, и охарактеризовать качество его работы.
Полученный профиль необходимо было проверить на всех белках Uniprot, содержащих хоть один домен семейства. Для этого были выбраны и получены последовательности белков, содержащих домен PF03828.
Построение профиля
1) Выделяю последовательности Viridiplantae в отдельное выравнивание.
2) Программой HMMER 3.0 строю профиль (в версии HMMER 3.0 калибровка не требуется):
hmmbuild align.hmm dilv.stk
Профиль в калибровке не нуждается, использована версия HMMER3.
Проверка профиля
Для этого понадобится файл в fasta-формате со всеми белками Uniprot, включающими хоть один домен из семейства PF01843.
Создаю список белков (gold), включающих домен PF01843 из Viridiplantae (то есть белков с заданной архитектурой и из заданного таксона).
hmmsearch -o out.txt --incE 1.0E-10 align.hmm uniprot.fasta
Сравниваю список находок со списком подсемейства. Привожу следующие характеристики работы профиля: числа TP, TN, FP, FN; чувствительность (она же Recall или "True positive rate") R = TP/(TP+FN); избирательность (она же точноcть, она же "Positive prediction value") PPV = TP/(TP+FP).
Характеристики (при пороге на E-value 1.0E-10):
База данных: 162
Результатов: 143
TP=26
TN=30
FP=106
FN=0
Чувствительность (она же Recall или "True positive rate"): R = TP/(TP+FN) = 1
Избирательность (она же точноcть, она же "Positive prediction value"): PPV = TP/(TP+FP)= 0,197
Вывод: использованной выборки недостаточно для характеризации специфичности семейства PF01843.