Выбор домена

Выделила из семейства Pfam подсемейство вида "домены семейства PF09140 из белков таксона B (Bacteria) с доменной архитектурой DUF59 (PF01883) + MipZ (PF09140) + ParA (PF10609)". На дереве моей выборки домены подсемейства образовывают отдельную кладу.

На основании моей выборки построила профиль, выделяющий данное подсемейство из всего семейства Pfam с помощью программы пакета HMMER 2.3.2 hmm2build. Выделила последовательности подсемейства из выравнивания моей выборки в отдельное выравнивание . Программой hmm2build построила профиль по этому выравниванию. Программой hmm2calibrate откалибровала профиль.

Для проверки профиля создала файл в fasta-формате со всеми белками Uniprot, включающими хоть один домен из моего Pfam-семейства. Программой hmm2search провела поиск откалиброванным профилем по всем белкам Uniprot, включающим хотя бы один домен моего семейства.

Создала список белков, включащих домен из подсемейства - "Gold standard" . Сравнила список находок со списком подсемейства.

Характеристики работы профиля по "Gold standard" (при пороге на E-value 10):

TP = 117,

TN = 0,

FP = 0,

FN = 0;

чувствительность ("True positive rate") R = TP/(TP+FN) = 1;

избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 1.

Характеристики работы профиля по всем белкам Uniprot, включающим хоть один домен из моего Pfam-семейства(при пороге на E-value 10):

Характеристики работы профиля:

TP = 117,

TN = 12,

FP = 290,

FN = 0;

чувствительность ("True positive rate") R = TP/(TP+FN) = 1;

избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 0.287.

Далее уменьшила E-value до 0.001 и повторила поиск.

Характеристики работы профиля по всем белкам Uniprot, включающим хоть один домен из моего Pfam-семейства(при пороге на E-value 0.001):

Характеристики работы профиля:

TP = 117,

TN = 19,

FP = 283,

FN = 0;

чувствительность ("True positive rate") R = TP/(TP+FN) = 1;

избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 0.293.

На мой взгляд, программа работает хорошо. Уменьшение порога на E-value на три порядка не дало значительных улучшений. Попробовала уменьшить порог на E-value до 0.00001

Характеристики работы профиля по всем белкам Uniprot, включающим хоть один домен из моего Pfam-семейства(при пороге на E-value 0.00001):

Характеристики работы профиля:

TP = 117,

TN = 60,

FP = 242,

FN = 0;

чувствительность ("True positive rate") R = TP/(TP+FN) = 1;

избирательность ("Positive prediction value") PPV = TP/(TP+FP) = 0.326.

По полученным данным мы можем понять, что выборка была недостаточна для характеризации специфичности данного подсемейства Pfam.

Далее попробовала провести те же самые операции в более новой версии программы. Для этого перевела свою выборку для построения профиля в формат Стокгольм из формата Фаста с помощью JalView, так как программа воспринимает только этот формат. После этого создала новый профиль. Этим профилем поискала выбранный домен в выборке всех белков, содержащих его. Получила следующие данные:

Internal pipeline statistics summary:
-------------------------------------
Query model(s):                            1  (123 nodes)
Target sequences:                        419  (131148 residues)
Passed MSV filter:                       417  (0.995227); expected 8.4 (0.02)
Passed bias filter:                      417  (0.995227); expected 8.4 (0.02)
Passed Vit filter:                       417  (0.995227); expected 0.4 (0.001)
Passed Fwd filter:                       405  (0.966587); expected 0.0 (1e-05)
Initial search space (Z):                419  [actual number of targets]
Domain search space  (domZ):             405  [number of targets reported over threshold]

Что удобно, программа сразу выдает данные для нескольких значений E-value. Это действиельно очень удобно, потому что не надо запускать программу несколько раз. Но, похоже, что чувствительность в новой программе сильно пострадала, к примеру, в старой версии у меня при E-value 0.00001 программа нашла 359 последовательностей, а эта версия нашла 405 последовательностей. Но в этой версии программы гораздо больше опций, которыми моно научиться пользоваться и получать более результаты.

 

 

© Дудина Дарья.