Для построения профиля выбрала двудоменные белки из Ecdysozoa, так как они выделились в отдельную ветвь.

Выделила из семейства Pfam подсемейство вида "домены семейства PF00017 из белков таксона Ecdysozoa с доменной архитектурой PID + SH2". На дереве моей выборки домены подсемейства образовывают отдельную кладу.

На основании моей выборки построила профиль, выделяющий данное подсемейство из всего семейства Pfam с помощью программы пакета HMMER 2.3.2 hmm2build. Выделила последовательности подсемейства из выравнивания моей выборки в отдельное выравнивание. Программой hmm2build построила профиль по этому выравниванию. Программой hmm2calibrate откалибровала профиль.

Для проверки профиля создала файл в fasta-формате со всеми белками Uniprot, включающими хоть один домен из моего Pfam-семейства. Программой hmm2search провела поиск откалиброванным профилем по всем белкам Uniprot, включающим хотя бы один домен моего семейства.

Создала список белков, включащих домен из подсемейства - "Gold standard". Сравнила список находок со списком подсемейства.

работы профиля по "Gold standard" (при пороге на E-value 10):

TP = 297,

TN = 0,

FP = 0,

FN = 5;

чувствительность ("True positive rate") R = TP/(TP+FN) = 0.983;

избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 1.

Характеристики работы профиля по всем белкам Uniprot, включающим хоть один домен из моего Pfam-семейства(при пороге на E-value 10):

Характеристики работы профиля:

TP = 302,

TN = 9,

FP = 121,

FN = 0;

чувствительность ("True positive rate") R = TP/(TP+FN) = 1;

избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 0.714.

Далее уменьшила E-value до 0.01 и повторила поиск.

Характеристики работы профиля по "Gold standard" (при пороге на E-value 0.01):

TP = 294,

TN = 0,

FP = 0,

FN = 8;

чувствительность ("True positive rate") R = TP/(TP+FN) = 0.974;

избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 1.

Характеристики работы профиля по всем белкам Uniprot, включающим хоть один домен из моего Pfam-семейства(при пороге на E-value 0.01):

<Характеристики работы профиля:

TP = 302,

TN = 24,

FP = 104,

FN = 0;

чувствительность ("True positive rate") R = TP/(TP+FN) = 1;

избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 0.744.

На мой взгляд, программа даже при таких значениях параметров не стала работать лучше. Уменьшение порога на E-value на три порядка не дало значительных улучшений. Попробовала уменьшить порог на E-value до 0.0001

Характеристики работы профиля по всем белкам Uniprot, включающим хоть один домен из моего Pfam-семейства(при пороге на E-value 0.0001):

Характеристики работы профиля:

TP = 302,

TN = 56,

FP = 74,

FN = 0;

чувствительность ("True positive rate") R = TP/(TP+FN) = 1;

избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 0.803.

Исходя из полученных данных, работу программы можно признать приемлемой при пороге на E-value 0.0001, так как значения чувствительности и избирательности отличаются не намного.