Домены семейства PF00656 из белков таксона Metazoa с двудоменной архитектурой с доменами Peptidase_C14 и CARD
Данная работа посвящена построению профиля, выделяющего одно подсемейство из всего семейства Pfam. Для работы было выбрано подсемейство, включающее домены семейства PF00656 из белков таксона Metazoa с двудоменной архитектурой с доменами Peptidase_C14 и CARD (PF00619). На дереве выборки мз множетсва последовательностей домены такого подсемейства образовывают отдельную кладу.
В данной работе использовались программы пакета HMMER 2.3.2. Для построения профиля последовательности подсемейства из выравнивания большой выборки были перенесены в отдельное выравнивание.
Программой hmm2build был построен профиль по полученному выравниванию:
Программой hmm2calibrate полученный профиль был откалиброван.
С помощью сервиса Retrieve в Uniprot были получены все последовательности (по списку AC), содержащие каспазный домен peptidase_C14 (AC последовательностей получены из сводной таблицы, файл с предыдущей страницы). С помощью hmm2search был построен профиль.
Профиль оценивали по "золотому стандарту" - выборке, состоящей только из правильных последовательностей (содержащих выбранную архитектуру).
Полученный список находок search сравнивали с золотым стандартом с помощью средств Excell. Результаты представлены в файле lists.xlsx, лист "Результаты". Были вычислены различные характеристики для сравнения списков (TN, FN, TP, FP, коротко их смысл приведен в комментариях в таблице), чувствительность (Recall, R) и избирательность (Precision, PPV). В таблице 1 приведы значения двух последних параметров для находок с разным порогом e-value.
Чувствительность близка к 100% при очень низких значениях e-value, т.е. по профилю очень хорошо находятся последовательности исходной выборки. Последовательности из "золотого стандарта" находятся профилем с минимальным e-value порядка 10е-83. Надо отметить, что профиль строился только по последовательности домена из выборки золотого стандарта, а в выборке для поиска профилем находились полноразмерные белковые последовательности, поэтому такая чувствительность может говорить о хорошей работе профиля. Иначе ситуация выглядит с избирательностью профиля. Получается, только при e-value меньше 10e-100 параметр избирательности вырастает больше 0,1. При этом порог score в данном случае выходит 341.
Таблица 1. Число находок чувствительность, избирательность профиля при различных значениях порога e-value,.
E-value | Число находок | R | PPV |
1,00E-07 | 1356 | 1 | 0,022861357 |
1,00E-30 | 965 | 1 | 0,032124352 |
1,00E-50 | 705 | 1 | 0,043971631 |
1,00E-80 | 305 | 1 | 0,101639344 |
1,00E-100 | 246 | 0,967741935 | 0,12195122 |
Заключение. Профиль работает с малой избирательностью. Для работы можно выбирать порог e-value не выше 10e-100. Тем не менее, профиль работает с очень высокой чувствительностью при любом разумном пороге e-value.