🌸 Назад

Практикум 10: поиск подсемейства с помощью профиля HMM

Выбранное семейство Pfam

ID: PF13602
Имя: ADH_zinc_N_2
Описание: Zinc-binding dehydrogenase (цинк-связывающая дегидрогеназа). Белки с этим доменом участвуют в окислительно-восстановительных реакциях, часто являются алкогольдегидрогеназами или редуктазами. Домен связывает один атом цинка и характерен для многих бактерий и эукариот.

Количество последовательностей в seed alignment: 100.
Количество последовательностей в full alignment (после фильтра reviewed): 158.

Выделение подсемейства

Критерий: таксономический – подсемейство состоит из бактериальных последовательностей. Эукариотические последовательности (животные, грибы, растения) были исключены на основе ключевых слов в идентификаторах (HUMAN, MOUSE, YEAST, ASPN и др.).

Число последовательностей в выравнивании подсемейства (бактерии): 131.

Выравнивание подсемейства сохранено в файле bacterial_subfamily.sto, профиль HMM – bacterial_subfamily.hmm.

Результаты поиска (hmmsearch) и выбор порога

Поиск проведён по всем 158 белкам семейства (файл pf13602_full.fasta). Для каждого белка рассчитан битовый вес (score). Оптимальный порог отбора подсемейства выбирался по максимуму F1-меры (баланс полноты и точности).

Оценка порогов

ПорогTPFPFNTNПолнота (Recall)Точность (Precision)F1
401162615188.5%81.7%0.849
501002131676.3%82.6%0.793
55892142667.9%80.9%0.739
60771854958.8%81.1%0.681
656512661549.6%84.4%0.624

Выбранный порог: 40. Он даёт максимальную F1-меру (0.849) и наилучшую полноту (88.5%) при высокой точности (81.7%). При этом правильно классифицируется 74% всех белков (accuracy).

Таблица 2×2 для порога 40

Подсемейство (бактерии)Не подсемейство (эукариоты)
Вес ≥ 40TP = 116FP = 26
Вес < 40FN = 15TN = 1

Сумма TP+FP+FN+TN = 158, что соответствует общему числу белков в full alignment.

Файлы результатов


Все файлы находятся в каталоге ~/term4/pr10/.