Профили

Выделим из семейства Pfam подсемейство вида 3Е (см Эволюционные домены), т.е 3-ех доменные архитектуры VirB3, CagE_TrbE_VirB, AAA_10 из подтаксона Epsilonproteobacteria. На дереве моей выборки домены подсемейства образовывают отдельную кладу (см. рис.5 Эволюционные домены). На основании этой выборки построим профиль, выделяющий данное подсемейство из всего семейства Pfam с помощью программы пакета HMMER 2.3.2 hmm2build. Выделим сначала выравнивания последовательностей подсемейства из выравнивания выборки в отдельный файл 3E.txt.

Программой hmm2build постром профиль по этому выравниванию.

hmm2build 1.pr 3E.txt

Программой hmm2calibrate откалибруем профиль.

 hmm2calibrate 1.pr

Для проверки профиля создадим файл в fasta-формате со всеми белками Uniprot, включающими хоть один домен из выбранного Pfam-семейства. Программой hmm2search проведем поиск откалиброванным профилем по всем белкам Uniprot, включающим хотя бы один домен моего семейства. Создадим список белков, включащих домен из подсемейства - "Gold standard". Сравним список находок со списком подсемейства.

hmm2search 1.pr 3E.fasta

Характеристики работы профиля по "Gold standard" (при пороге на E-value 10):

TP = 29,
TN = 0,
FP = 0,
FN = 0;

Чувствительность ("True positive rate") R = TP/(TP+FN) = 1
Избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 1.

 hmm2search 1.pr all.fasta > file_all.txt

Характеристики работы профиля (при пороге на E-value 10):

TP = 29,
TN = 24,
FP = 881,
FN = 0;

Чувствительность ("True positive rate") R = TP/(TP+FN) = 1
Избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 0.031

 hmm2search -E 0.01 1.pr all.fasta > file_0.01.txt

Характеристики работы профиля (при пороге на E-value 0.01):

TP = 29,
TN = 263,
FP = 642,
FN = 0;

Чувствительность ("True positive rate") R = TP/(TP+FN) = 1
Избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 0.04

 hmm2search -E 0.0001 1.pr all.fasta > file_0.0001.txt

Характеристики работы профиля (при пороге на E-value 0.0001):

TP = 29,
TN = 641,
FP = 264,
FN = 0;

Чувствительность ("True positive rate") R = TP/(TP+FN) = 1
Избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 0.09

Обсуждение и выводы:

Как мы видим, сильно повысить избирательность при уменьшении E-value не получается. Лучшие результаты получаются при E-value = 0.0001.

Скорее всего так получилось потому, что все выбранные последовательности похожи, домены тоже похоже. Выбранное подсемейство не достаточно сильно отличается от трехдоменных архитектур из других подтаксонов. Если мы хотим сделать выборку более точной, то нужно профиль калибровать. По полученным данным мы можем понять, что выборка была недостаточна для характеризации специфичности данного подсемейства Pfam.

© Nuzhdina Ekaterina, 2012