Для анализа был выбран домен Rad9_Rad53_bind. Это домен белка Rad9, который связывает белок Rad53 (известный, из-за него и выбран домен) и фосфорилируется им в ходе ответа на повреждения ДНК.
Ниже представлены характеристики этого домена.
Рисунок 1. Распределение длин белков семейства
В качестве архитектуры была выбрана архитектура Rad9_Rad53_bind, BRCT_2, представленная в базе данных 26 последовательностями.
Файл со всеми последовательностями. Файл с последовательностями, содержащими выбранную архитектуру.
Последовательности, содержащие архитектуру, были выравнены алгоритмом muscle. Полученное выравнивание было отредактировано в JalView: были удалены участки до 940 и после 1260 позиций, были удалены две плохо выравненные последовательности, а также выставлен порог на redundancy в 91 дал еще 13 последовательностей.
Таким образом была получена выборка для построения HMM профиля.
Профиль был построен с использованием команды hmm2build и откалиброван hmm2calibrate. Результат работы доступен по ссылке. Далее по полному набору последовательностей был проведен поиск доменов командой hmm2search с порогом на E-value в 0.1.
Выдача доступна по ссылке.
Далее средствами Google Таблиц был проведен анализ: были посчитаны чувствительность, специфичность, точность (precision) и F1 мера.
Файл доступен по ссылке.
На основании F1 меры (максимум равен 0.885) был определен оптимальный порог веса равный 225.9. Также была построена ROC-кривая (рис.2), по форме которой можно судить о достаточно хорошем качестве построенного профиля.
Рисунок 2. ROC-кривая.