Был выбран домен GAGA(PF09237). Члены этого семейства связываются с консенсусным сайтом связывания ДНК 5'-GAGAG-3' и содержат ядро цинкового пальца Cys2-His2. Домен содержит 29 архитектур. Была выдрана двудоменная архитектура, содержащая 194 белка (репрезентативный - O76940): PF00651 (ВТВ)- PF09237 (GAGA).
Я выровнял полные последовательности: pr11.ali.fa
После вырезания вертикального блока, чистки и повторного выравнивания, Remove redundancy с порогом 90%, получил материал для построения профиля: all_seq.fa
По последнему файлу мы строим HMM-профиль и калибруем его:
hmm2search --cpu=1 hmmout full.fasta > result.txt
HMM-профиль, все находки в полной выборке.
Используя скрипт, получили гистограммы и графики для определения порога веса.
Гистограмма весов последовательностей обучающей выборкиГистограмма весов последовательностей позитивной выборки
Гистограмма весов последовательностей негативной выборки
ROC-кривая
Зависимость параметра F1 от веса
По диаграмма и графикам можно определить порог веса в ~250, все рисунки это подтвеждают. Также можно сказать, что позитивные и негативные выборки довольно хорошо разделены друг от друга.