Практикум 9. Домены и профили

Выбор домена

Для анализа был выбран домен Rad9_Rad53_bind. Это домен белка Rad9, который связывает белок Rad53 и фосфорилируется им в ходе ответа на повреждения ДНК. Ниже представлены характеристики этого домена.

  1. ID: Rad9_Rad53_bind
  2. Accession: PF08605
  3. Seed: 7
  4. Full: 167
  5. Average length: 137.9
  6. Average coverage: 10.5
  7. HMM length: 129

В качестве архитектуры была выбрана двухдоменная архитектура Rad9_Rad53_bind, BRCT_2, представленная в базе данных 26 последовательностями. Домены расположены близко друг к другу обычно в конце белка. Второй домен BRCT_2 учасвует в ответе на повреждения ДНК, способен связывать фосфорилированные участки белков.

Файл со всеми последовательностями. Файл с последовательностями, содержащими выбранную архитектуру. Последовательности, содержащие архитектуру, были выравнены алгоритмом muscle. Полученное выравнивание было отредактировано в JalView: были удалены участки до 940 позиции и после 1260, были удалены 2 плохо выравненные последовательности и путем выставления порога на redundancy в 91 были удалены еще 13 последовательностей. Таким образом была получена выборка для построения HMM профиля.

HMM профиль

Профиль был построен с использованием команды hmm2build и откалиброван hmm2calibrate. Результат работы доступен по ссылке. Далее по полному набору последовательностей был проведен поиск доменов командой hmm2search с порогом на E-value в 0.1. Выдача доступна по ссылке. Далее средствами Google Таблиц был проведен анализ: были посчитаны чувствительность, специфичность, точность (precision) и F1 мера. Файл доступен по ссылке. На основании F1 меры (максимум равен 0.885) был определен оптимальный порог веса равный 225.9. Также была построена ROC-кривая, по форме которой можно судить о достаточно хорошем качестве построенного профиля.