Профили

Выбор домена

Выделила из семейства Pfam подсемейство вида "домены семейства PF09223 из белков таксона P (Proteobacteria) с доменной архитектурой YodA". На дереве моей выборки домены подсемейства образовывают отдельную кладу.

На основании моей выборки построила профиль, выделяющий данное подсемейство из всего семейства Pfam с помощью программы пакета HMMER 2.3.2 hmm2build. Выделила последовательности подсемейства из выравнивания моей выборки в отдельное выравнивание . Программой hmm2build построила профиль по этому выравниванию. Программой hmm2calibrate откалибровала профиль.

Для проверки профиля создала файл в fasta-формате со всеми белками Uniprot, включающими хоть один домен из моего Pfam-семейства. Программой hmm2search провела поиск откалиброванным профилем по всем белкам Uniprot, включающим хотя бы один домен моего семейства.

Создала список белков, включащих домен из подсемейства - "Gold standard". Сравнила список находок со списком подсемейства.

Характеристики работы профиля по "Gold standard" (при пороге на E-value 10):

TP = 448,

TN = 0,

FP = 0,

FN = 4;

чувствительность ("True positive rate") R = TP/(TP+FN) = 0.91;

избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 1.

Характеристики работы профиля по всем белкам Uniprot, включающим хоть один домен из моего Pfam-семейства(при пороге на E-value 10):

Характеристики работы профиля:

TP = 492,

TN = 29,

FP = 69,

FN = 0;

чувствительность ("True positive rate") R = TP/(TP+FN) = 1;

избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 0.877.

Далее уменьшила E-value до 0.01 и повторила поиск.

Характеристики работы профиля по "Gold standard" (при пороге на E-value 0.01):

TP = 448,

TN = 0,

FP = 0,

FN = 4;

чувствительность ("True positive rate") R = TP/(TP+FN) = 0.91;

избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 1.

Характеристики работы профиля по всем белкам Uniprot, включающим хоть один домен из моего Pfam-семейства(при пороге на E-value 0.01):

Характеристики работы профиля:

TP = 492,

TN = 39,

FP = 54,

FN = 0;

чувствительность ("True positive rate") R = TP/(TP+FN) = 1;

избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 0.901.

На мой взгляд, программа работает хорошо. Уменьшение порога на E-value на три порядка не дало значительных улучшений. Попробовала уменьшить порог на E-value до 0.0001

Характеристики работы профиля по всем белкам Uniprot, включающим хоть один домен из моего Pfam-семейства(при пороге на E-value 0.0001):

Характеристики работы профиля:

TP = 492,

TN = 61,

FP = 32,

FN = 0;

чувствительность ("True positive rate") R = TP/(TP+FN) = 1;

избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 0.94.

Исходя из полученных данных, работу программы можно признать очень хорошей при пороге на E-value 0.0001, так как значения чувствительности и избирательности очень близки.

© Nosikova Kate, 2012