Практикум 9

Выберите домен и доменную архитектуру

Для выбора домена, подходящего по требованиям был использован Excel. В итоге был выбран домен ORF11CD3 (PF10549).Характеристики домена:

  • Число последовательностей-53
  • Cредняя длина домена-52.5
  • Среднее сходство (identity)-35%
  • Средний процент покрытия последовательности белка доменом (coverage)-29.79%
  • Для домена известны 7 архитектуры. Для изучения была выбрана двухдоменная архитектура, состоящая из KilA-N, ORF11CD3. Она встречается в 30 из 53 последовательностей.

    архитектура
    Рис.1Двухдоменная архитектура, состоящая из KilA-N, ORF11CD3

    Был скачен файл со всеми последовательностями домена, который можно увидеть здесь. Далее был составлен список всех АС с нужной нам доменной архитектурой и их последовательностями, результат можно увидеть здесь здесь.

    Полученный файл был выровнен в Jailview, также удалены фрагменты до первого домена и после второго, на взгляд лишние последовательности, и с большим процентом идентичности, в итоге работа велась с 17 последовательностями. Результат можно увидеть здесь.

    Построение HMM-профиля семейства белков

    Для построения НММ-профиля был использован пакет HMMER и выполнены следующие команды:

    hmm2build HMM aln.fa
    hmm2calibrate HMM
    hmm2search --cpu=1 -E 1 HMM full.fasta> results.txt

    В итоге был получен НММ-профиль двухдоменой структуры длиной 179, который можно найти здесь, и файл с результатами поиска профиля по набору белков с выбранным доменом, его можно найти здесь.

    Анализ HMM-профиля

    Для анализа профиля была построена таблица со следующими важными для анализа столбцами:

  • Sequence - ac белка
  • E-value - E-value по hmm профилю
  • score - вес по hmm профилю
  • ARC - yes, если он содержит выбранную доменную архитектуру, no в ином случае
  • 1-Specificity - ложноположительный уровень
  • Sensitivity - чувствительность
  • F1 - F1-мера, если вес данного белка выбрать как порог
  • Таблицу можно посмотреть здесь

    По данным в таблице были построены следующие графики:

    score
    Рис.2Падение веса
    ROC
    Рис.3ROC-кривая
    score
    Рис.4График F1-меры

    Видно заметное падение на графике весов, и определенно предельно выпуклая ROC-кривая, а также большие значения F1-меры (максимум = 0,9836),что говорит о том, что HMM профиль работает хорошо. Но, из-за крайне выпуклой ROC-кривой и плато на графике F1-меры сложно определить лучший порог веса. Но находится от примерно в области от 0 до 300.