Выделила из семейства Pfam подсемейство вида "домены семейства PF09223 из белков таксона P (Proteobacteria) с доменной архитектурой YodA". На дереве моей выборки домены подсемейства образовывают отдельную кладу.
На основании моей выборки построила профиль, выделяющий данное подсемейство из всего семейства Pfam с помощью программы пакета HMMER 2.3.2 hmm2build. Выделила последовательности подсемейства из выравнивания моей выборки в отдельное выравнивание . Программой hmm2build построила профиль по этому выравниванию. Программой hmm2calibrate откалибровала профиль.
Для проверки профиля создала файл в fasta-формате со всеми белками Uniprot, включающими хоть один домен из моего Pfam-семейства. Программой hmm2search провела поиск откалиброванным профилем по всем белкам Uniprot, включающим хотя бы один домен моего семейства.
Создала список белков, включащих домен из подсемейства - "Gold standard". Сравнила список находок со списком подсемейства.
Характеристики работы профиля по "Gold standard" (при пороге на E-value 10):
TP = 448,
TN = 0,
FP = 0,
FN = 4;
чувствительность ("True positive rate") R = TP/(TP+FN) = 0.91;
избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 1.
Характеристики работы профиля по всем белкам Uniprot, включающим хоть один домен из моего Pfam-семейства(при пороге на E-value 10):
Характеристики работы профиля:
TP = 492,
TN = 29,
FP = 69,
FN = 0;
чувствительность ("True positive rate") R = TP/(TP+FN) = 1;
избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 0.877.
Далее уменьшила E-value до 0.01 и повторила поиск.
Характеристики работы профиля по "Gold standard" (при пороге на E-value 0.01):
TP = 448,
TN = 0,
FP = 0,
FN = 4;
чувствительность ("True positive rate") R = TP/(TP+FN) = 0.91;
избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 1.
Характеристики работы профиля по всем белкам Uniprot, включающим хоть один домен из моего Pfam-семейства(при пороге на E-value 0.01):
Характеристики работы профиля:
TP = 492,
TN = 39,
FP = 54,
FN = 0;
чувствительность ("True positive rate") R = TP/(TP+FN) = 1;
избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 0.901.
На мой взгляд, программа работает хорошо. Уменьшение порога на E-value на три порядка не дало значительных улучшений. Попробовала уменьшить порог на E-value до 0.0001
Характеристики работы профиля по всем белкам Uniprot, включающим хоть один домен из моего Pfam-семейства(при пороге на E-value 0.0001):
Характеристики работы профиля:
TP = 492,
TN = 61,
FP = 32,
FN = 0;
чувствительность ("True positive rate") R = TP/(TP+FN) = 1;
избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 0.94.
Исходя из полученных данных, работу программы можно признать очень хорошей при пороге на E-value 0.0001, так как значения чувствительности и избирательности очень близки.