ID: PF13602
Имя: ADH_zinc_N_2
Описание: Zinc-binding dehydrogenase (цинк-связывающая дегидрогеназа). Белки с этим доменом участвуют в окислительно-восстановительных реакциях, часто являются алкогольдегидрогеназами или редуктазами. Домен связывает один атом цинка и характерен для многих бактерий и эукариот.
Количество последовательностей в seed alignment: 100.
Количество последовательностей в full alignment (после фильтра reviewed): 158.
Критерий: таксономический – подсемейство состоит из бактериальных последовательностей. Эукариотические последовательности (животные, грибы, растения) были исключены на основе ключевых слов в идентификаторах (HUMAN, MOUSE, YEAST, ASPN и др.).
Число последовательностей в выравнивании подсемейства (бактерии): 131.
Выравнивание подсемейства сохранено в файле bacterial_subfamily.sto, профиль HMM – bacterial_subfamily.hmm.
Поиск проведён по всем 158 белкам семейства (файл pf13602_full.fasta). Для каждого белка рассчитан битовый вес (score). Оптимальный порог отбора подсемейства выбирался по максимуму F1-меры (баланс полноты и точности).
| Порог | TP | FP | FN | TN | Полнота (Recall) | Точность (Precision) | F1 |
|---|---|---|---|---|---|---|---|
| 40 | 116 | 26 | 15 | 1 | 88.5% | 81.7% | 0.849 |
| 50 | 100 | 21 | 31 | 6 | 76.3% | 82.6% | 0.793 |
| 55 | 89 | 21 | 42 | 6 | 67.9% | 80.9% | 0.739 |
| 60 | 77 | 18 | 54 | 9 | 58.8% | 81.1% | 0.681 |
| 65 | 65 | 12 | 66 | 15 | 49.6% | 84.4% | 0.624 |
Выбранный порог: 40. Он даёт максимальную F1-меру (0.849) и наилучшую полноту (88.5%) при высокой точности (81.7%). При этом правильно классифицируется 74% всех белков (accuracy).
| Подсемейство (бактерии) | Не подсемейство (эукариоты) | |
|---|---|---|
| Вес ≥ 40 | TP = 116 | FP = 26 |
| Вес < 40 | FN = 15 | TN = 1 |
Сумма TP+FP+FN+TN = 158, что соответствует общему числу белков в full alignment.
Все файлы находятся в каталоге ~/term4/pr10/.