Было выбрано семейство PF00318 (Ribosomal protein S2, ID: Ribosomal_S2). Последовательностей в seed: 319, в full: 22394.
Функция: сборка различных субъединиц рибосом.
Подсемейство: выделено по таксономии - Bacteria uS2.
Скачаем выравнивание SEED для PF00318 и оставим в нём только бактериальные последовательности. Количество последовательностей в выравнивании: 224.
Теперь построим профиль HMM по последовательностям доменов подсемейства.
Результатом будет файл rs2_subfamily.hmm, который обучен распознавать именно бактериальные версии белка S2.
Чтобы проверить качество профиля, нужно найти его веса для всех членов семейства. Для этого скачаем файл со всеми последовательностями семейства с Pfam (reviewed - 1096). Потом запустим поиск профилем (программа hmmsearch) по этим белкам.
Оптимальный порог на вес для выделения подсемейства: 284.
Численные характеристики выделения подсемейства профилем:
| TP | Bacteria и Score > 284: 738 |
| FP | не Bacteria и Score > 284: 16 |
| TN | не Bacteria и Score =< 284: 330 |
| FN | Bacteria и Score =< 284: 12 |