Практикум 11

Я выбрал семейство Stc1 domain (PF12898). Всего белков - около 1132, в seed - 55. Входит в состав белка Stc1, встречающийся, в основном, у аскомицетов. Stc1 связывает процессы образования гетерохроматина и РНК-интерференции (взаимодействуя с Ago1 и CLRC). В качестве подсемейства я выбрал белки со следующей доменной структурой:

Рис. 1. Доменная архитектура выбранного мной подсемейства

Последовательности выравнены программой Mafft, из выравнивания вырезан нужный участок с доменами (ориетинруясь на репрезентативного представителя) - 23 последовательности (выравнивание).

На его основе был построен HMM профиль с помощью программы hmm2build, затем откалиброван с помощью hmm2calibrate. Далее были скачены полные последовательности белков, содержащих данный домен, и с помощью программы hmm2search выполнен поиск по построенному профилю (результат).

Все белки подсемейства нашлись, причем максимальное E-value для находки из подсемейства - 1.2e-45, то есть очень мало. Я не знаю, насколько это разумно, но если поставить порог на E-value e-44, то таблица сопряжения будет такая:

Таблица 1. Численные характеристики выделения подсемейства профилем:
TRUE FALSE
Positive 23 11
Negative 1098 0