Практикум 11

Был выбран домен GAGA(PF09237). Члены этого семейства связываются с консенсусным сайтом связывания ДНК 5'-GAGAG-3' и содержат ядро ​​цинкового пальца Cys2-His2. Домен содержит 29 архитектур. Была выдрана двудоменная архитектура, содержащая 194 белка (репрезентативный - O76940): PF00651 (ВТВ)- PF09237 (GAGA).

Я выровнял полные последовательности: pr11.ali.fa

После вырезания вертикального блока, чистки и повторного выравнивания, Remove redundancy с порогом 90%, получил материал для построения профиля: all_seq.fa

По последнему файлу мы строим HMM-профиль и калибруем его:

hmm2search --cpu=1 hmmout full.fasta > result.txt

HMM-профиль, все находки в полной выборке.

Используя скрипт, получили гистограммы и графики для определения порога веса.

Tаблица

Гистограмма весов последовательностей обучающей выборки

Гистограмма весов последовательностей позитивной выборки

Гистограмма весов последовательностей негативной выборки

ROC-кривая

Зависимость параметра F1 от веса

По диаграмма и графикам можно определить порог веса в ~250, все рисунки это подтвеждают. Также можно сказать, что позитивные и негативные выборки довольно хорошо разделены друг от друга.