Практикум 11
Я выбрал семейство Stc1 domain (PF12898). Всего белков - около 1132, в seed - 55. Входит в состав белка Stc1, встречающийся, в основном, у аскомицетов. Stc1 связывает процессы образования гетерохроматина и РНК-интерференции (взаимодействуя с Ago1 и CLRC). В качестве подсемейства я выбрал белки со следующей доменной структурой:

Последовательности выравнены программой Mafft, из выравнивания вырезан нужный участок с доменами (ориетинруясь на репрезентативного представителя) - 23 последовательности (выравнивание).
На его основе был построен HMM профиль с помощью программы hmm2build, затем откалиброван с помощью hmm2calibrate. Далее были скачены полные последовательности белков, содержащих данный домен, и с помощью программы hmm2search выполнен поиск по построенному профилю (результат).
Все белки подсемейства нашлись, причем максимальное E-value для находки из подсемейства - 1.2e-45, то есть очень мало. Я не знаю, насколько это разумно, но если поставить порог на E-value e-44, то таблица сопряжения будет такая:
Таблица 1. Численные характеристики выделения подсемейства профилем:
TRUE | FALSE | |
Positive | 23 | 11 |
Negative | 1098 | 0 |