Домены и профили

Выбор домена и подсемейства

Я выбрала домен PF02026- RyR domain для рианодиновых рецепторов. Рианодиновые рецепторы — это тип кальциевых каналов, участвующие в мышечном сокращении. Информация о домене:

  • ID: RyR
  • AC: PF02026
  • seed: 88
  • Uniprot: 8000
  • Domain architectures: 466
  • Я выбрала подсемейство белков, содержащих два домена: RyR(PF02026) SPRY(PF00622). Это подсемейство содержит 109 представителей. Это подсемейство вовлечено в транспорт ионов кальция.

    последовательность подсемейства

    Сначала последовательности были отсортированы по id и выровнены алгоритмом MAFFT. Были удалены вероятные фрагменты, имеющие крупные делеции и затем высокосходные последовательности (remove redundancy с порогом 90%). Итого осталось 13 последовательностей.

    Создание HMM профиля

    HMM-профиль был создан с помощью следующих команд:

    hmm2build hmmout Final_pr11_sem4.fa

    hmm2calibrate hmmout

    hmm2search --cpu=1 hmmout pr11_sem4.fasta > hmm_results.txt

    Результаты поиска

    HMM-профиль

    Анализ HMM-профиля

    Вывод программы hmm отформатирован в Excel и получена таблица. Скриптом из питона получены необходимые графики. Как видно из графика (Рис.1.) длины белков сосредоточены в диапозоне 580-700. Обычно кривая ROC может использоваться для оценки эффективности HMM при классификации биологических последовательностей.

    Этапы построения кривой ROC:

    1.HMM присваивает оценку каждой последовательности в наборе данных, которая отражает вероятность того, что последовательность принадлежит к семейству белков, которое представляет HMM.

    2. Устанавливаются различные пороговые значения для различения положительных (относящихся к семейству) и отрицательных (не относящихся к семейству) последовательностей. Последовательность классифицируется как положительная, если ее оценка превышает пороговое значение, и отрицательная в противном случае.

    3.Для каждого порогового значения вычисляются истинно положительный показатель (TPR) и ложноположительный показатель (FPR). TPR - это доля фактических положительных последовательностей, которые были правильно идентифицированы, а FPR - это доля фактических отрицательных последовательностей, которые были неправильно идентифицированы как положительные.

    4.Затем строится ROC-кривая с FPR на оси x и TPR на оси y. Чем ближе кривая к левому верхнему углу, тем лучше HMM различает положительные и отрицательные последовательности.

    Площадь под кривой ROC (AUC-ROC) также может использоваться в качестве единого показателя для оценки эффективности HMM. Значение AUC, равное 1,0, указывает на идеальную HMM, в то время как значение AUC, равное 0,5, указывает на то, что HMM не лучше случайного угадывания.

    lys25
    Рис. 1. Гистограмма длин белков выбранного семейства.
    asn81
    Рис. 2.ROC-curve .