Выбор домена
Выделила из семейства Pfam подсемейство вида "домены семейства PF09140 из белков таксона B (Bacteria) с доменной архитектурой DUF59 (PF01883) + MipZ (PF09140) + ParA (PF10609)". На дереве моей выборки домены подсемейства образовывают отдельную кладу.
На основании моей выборки построила профиль, выделяющий данное подсемейство из всего семейства Pfam с помощью программы пакета HMMER 2.3.2 hmm2build. Выделила последовательности подсемейства из выравнивания моей выборки в отдельное выравнивание . Программой hmm2build построила профиль по этому выравниванию. Программой hmm2calibrate откалибровала профиль.
Для проверки профиля создала файл в fasta-формате со всеми белками Uniprot, включающими хоть один домен из моего Pfam-семейства. Программой hmm2search провела поиск откалиброванным профилем по всем белкам Uniprot, включающим хотя бы один домен моего семейства.
Создала список белков, включащих домен из подсемейства - "Gold standard" . Сравнила список находок со списком подсемейства.
Характеристики работы профиля по "Gold standard" (при пороге на E-value 10):
TP = 117,
TN = 0,
FP = 0,
FN = 0;
чувствительность ("True positive rate") R = TP/(TP+FN) = 1;
избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 1.
Характеристики работы профиля по всем белкам Uniprot, включающим хоть один домен из моего Pfam-семейства(при пороге на E-value 10):
Характеристики работы профиля:
TP = 117,
TN = 12,
FP = 290,
FN = 0;
чувствительность ("True positive rate") R = TP/(TP+FN) = 1;
избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 0.287.
Далее уменьшила E-value до 0.001 и повторила поиск.
Характеристики работы профиля по всем белкам Uniprot, включающим хоть один домен из моего Pfam-семейства(при пороге на E-value 0.001):
Характеристики работы профиля:
TP = 117,
TN = 19,
FP = 283,
FN = 0;
чувствительность ("True positive rate") R = TP/(TP+FN) = 1;
избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 0.293.
На мой взгляд, программа работает хорошо. Уменьшение порога на E-value на три порядка не дало значительных улучшений. Попробовала уменьшить порог на E-value до 0.00001
Характеристики работы профиля по всем белкам Uniprot, включающим хоть один домен из моего Pfam-семейства(при пороге на E-value 0.00001):
Характеристики работы профиля:
TP = 117,
TN = 60,
FP = 242,
FN = 0;
чувствительность ("True positive rate") R = TP/(TP+FN) = 1;
избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 0.326.
По полученным данным мы можем понять, что выборка была недостаточна для характеризации специфичности данного подсемейства Pfam.
Далее попробовала провести те же самые операции в более новой версии программы. Для этого перевела свою выборку для построения профиля в формат Стокгольм из формата Фаста с помощью JalView, так как программа воспринимает только этот формат. После этого создала новый профиль. Этим профилем поискала выбранный домен в выборке всех белков, содержащих его. Получила следующие данные:
Internal pipeline statistics summary: ------------------------------------- Query model(s): 1 (123 nodes) Target sequences: 419 (131148 residues) Passed MSV filter: 417 (0.995227); expected 8.4 (0.02) Passed bias filter: 417 (0.995227); expected 8.4 (0.02) Passed Vit filter: 417 (0.995227); expected 0.4 (0.001) Passed Fwd filter: 405 (0.966587); expected 0.0 (1e-05) Initial search space (Z): 419 [actual number of targets] Domain search space (domZ): 405 [number of targets reported over threshold]
Что удобно, программа сразу выдает данные для нескольких значений E-value. Это действиельно очень удобно, потому что не надо запускать программу несколько раз. Но, похоже, что чувствительность в новой программе сильно пострадала, к примеру, в старой версии у меня при E-value 0.00001 программа нашла 359 последовательностей, а эта версия нашла 405 последовательностей. Но в этой версии программы гораздо больше опций, которыми моно научиться пользоваться и получать более результаты.