Для анализа был выбран домен Rad9_Rad53_bind. Это домен белка Rad9, который связывает белок Rad53 и фосфорилируется им в ходе ответа на повреждения ДНК. Ниже представлены характеристики этого домена.
В качестве архитектуры была выбрана двухдоменная архитектура Rad9_Rad53_bind, BRCT_2, представленная в базе данных 26 последовательностями. Домены расположены близко друг к другу обычно в конце белка. Второй домен BRCT_2 учасвует в ответе на повреждения ДНК, способен связывать фосфорилированные участки белков.
Файл со всеми последовательностями. Файл с последовательностями, содержащими выбранную архитектуру. Последовательности, содержащие архитектуру, были выравнены алгоритмом muscle. Полученное выравнивание было отредактировано в JalView: были удалены участки до 940 позиции и после 1260, были удалены 2 плохо выравненные последовательности и путем выставления порога на redundancy в 91 были удалены еще 13 последовательностей. Таким образом была получена выборка для построения HMM профиля.
Профиль был построен с использованием команды hmm2build и откалиброван hmm2calibrate. Результат работы доступен по ссылке. Далее по полному набору последовательностей был проведен поиск доменов командой hmm2search с порогом на E-value в 0.1. Выдача доступна по ссылке. Далее средствами Google Таблиц был проведен анализ: были посчитаны чувствительность, специфичность, точность (precision) и F1 мера. Файл доступен по ссылке. На основании F1 меры (максимум равен 0.885) был определен оптимальный порог веса равный 225.9. Также была построена ROC-кривая, по форме которой можно судить о достаточно хорошем качестве построенного профиля.