Домены семейства PF00656 из белков таксона Metazoa с двудоменной архитектурой с доменами Peptidase_C14 и CARD

Данная работа посвящена построению профиля, выделяющего одно подсемейство из всего семейства Pfam. Для работы было выбрано подсемейство, включающее домены семейства PF00656 из белков таксона Metazoa с двудоменной архитектурой с доменами Peptidase_C14 и CARD (PF00619). На дереве выборки мз множетсва последовательностей домены такого подсемейства образовывают отдельную кладу.

В данной работе использовались программы пакета HMMER 2.3.2. Для построения профиля последовательности подсемейства из выравнивания большой выборки были перенесены в отдельное выравнивание.

Программой hmm2build был построен профиль по полученному выравниванию:

hmm2build -h #опции
hmm2build out casp_card_ali.fasta

Программой hmm2calibrate полученный профиль был откалиброван.

hmm2calibrate out

С помощью сервиса Retrieve в Uniprot были получены все последовательности (по списку AC), содержащие каспазный домен peptidase_C14 (AC последовательностей получены из сводной таблицы, файл с предыдущей страницы). С помощью hmm2search был построен профиль.

hmm2search out seq_with_peptidaseC14.fasta > search

Профиль оценивали по "золотому стандарту" - выборке, состоящей только из правильных последовательностей (содержащих выбранную архитектуру).

Полученный список находок search сравнивали с золотым стандартом с помощью средств Excell. Результаты представлены в файле lists.xlsx, лист "Результаты". Были вычислены различные характеристики для сравнения списков (TN, FN, TP, FP, коротко их смысл приведен в комментариях в таблице), чувствительность (Recall, R) и избирательность (Precision, PPV). В таблице 1 приведы значения двух последних параметров для находок с разным порогом e-value.

Чувствительность близка к 100% при очень низких значениях e-value, т.е. по профилю очень хорошо находятся последовательности исходной выборки. Последовательности из "золотого стандарта" находятся профилем с минимальным e-value порядка 10е-83. Надо отметить, что профиль строился только по последовательности домена из выборки золотого стандарта, а в выборке для поиска профилем находились полноразмерные белковые последовательности, поэтому такая чувствительность может говорить о хорошей работе профиля. Иначе ситуация выглядит с избирательностью профиля. Получается, только при e-value меньше 10e-100 параметр избирательности вырастает больше 0,1. При этом порог score в данном случае выходит 341.

Таблица 1. Число находок чувствительность, избирательность профиля при различных значениях порога e-value,.

E-value Число находок R PPV
1,00E-07 1356 1 0,022861357
1,00E-30 965 1 0,032124352
1,00E-50 705 1 0,043971631
1,00E-80 305 1 0,101639344
1,00E-100 246 0,967741935 0,12195122

Заключение. Профиль работает с малой избирательностью. Для работы можно выбирать порог e-value не выше 10e-100. Тем не менее, профиль работает с очень высокой чувствительностью при любом разумном пороге e-value.



Последнее изменение: 2014 (pankevich-ev)