Для построения профиля выбрала двудоменные белки из Ecdysozoa, так как они выделились в отдельную ветвь.
Выделила из семейства Pfam подсемейство вида "домены семейства PF00017 из белков таксона Ecdysozoa с доменной архитектурой PID + SH2". На дереве моей выборки домены подсемейства образовывают отдельную кладу.
На основании моей выборки построила профиль, выделяющий данное подсемейство из всего семейства Pfam с помощью программы пакета HMMER 2.3.2 hmm2build. Выделила последовательности подсемейства из выравнивания моей выборки в отдельное выравнивание. Программой hmm2build построила профиль по этому выравниванию. Программой hmm2calibrate откалибровала профиль.
Для проверки профиля создала файл в fasta-формате со всеми белками Uniprot, включающими хоть один домен из моего Pfam-семейства. Программой hmm2search провела поиск откалиброванным профилем по всем белкам Uniprot, включающим хотя бы один домен моего семейства.
Создала список белков, включащих домен из подсемейства - "Gold standard". Сравнила список находок со списком подсемейства.
работы профиля по "Gold standard" (при пороге на E-value 10):
TP = 297,
TN = 0,
FP = 0,
FN = 5;
чувствительность ("True positive rate") R = TP/(TP+FN) = 0.983;
избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 1.
Характеристики работы профиля по всем белкам Uniprot, включающим хоть один домен из моего Pfam-семейства(при пороге на E-value 10):
Характеристики работы профиля:
TP = 302,
TN = 9,
FP = 121,
FN = 0;
чувствительность ("True positive rate") R = TP/(TP+FN) = 1;
избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 0.714.
Далее уменьшила E-value до 0.01 и повторила поиск.
Характеристики работы профиля по "Gold standard" (при пороге на E-value 0.01):
TP = 294,
TN = 0,
FP = 0,
FN = 8;
чувствительность ("True positive rate") R = TP/(TP+FN) = 0.974;
избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 1.
Характеристики работы профиля по всем белкам Uniprot, включающим хоть один домен из моего Pfam-семейства(при пороге на E-value 0.01):
<Характеристики работы профиля:
TP = 302,
TN = 24,
FP = 104,
FN = 0;
чувствительность ("True positive rate") R = TP/(TP+FN) = 1;
избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 0.744.
На мой взгляд, программа даже при таких значениях параметров не стала работать лучше. Уменьшение порога на E-value на три порядка не дало значительных улучшений. Попробовала уменьшить порог на E-value до 0.0001
Характеристики работы профиля по всем белкам Uniprot, включающим хоть один домен из моего Pfam-семейства(при пороге на E-value 0.0001):
Характеристики работы профиля:
TP = 302,
TN = 56,
FP = 74,
FN = 0;
чувствительность ("True positive rate") R = TP/(TP+FN) = 1;
избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 0.803.
Исходя из полученных данных, работу программы можно признать приемлемой при пороге на E-value 0.0001, так как значения чувствительности и избирательности отличаются не намного.