Домены и профили
Выбор домена и подсемейства
Я выбрала домен PF02026- RyR domain для рианодиновых рецепторов. Рианодиновые рецепторы — это тип кальциевых каналов, участвующие в мышечном сокращении. Информация о домене:
- ID: RyR
- AC: PF02026
- seed: 88
- Uniprot: 8000
- Domain architectures: 466
Я выбрала подсемейство белков, содержащих два домена: RyR(PF02026) SPRY(PF00622). Это подсемейство содержит 109 представителей. Это подсемейство вовлечено в транспорт ионов кальция.
последовательность подсемействаСначала последовательности были отсортированы по id и выровнены алгоритмом MAFFT. Были удалены вероятные фрагменты, имеющие крупные делеции и затем высокосходные последовательности (remove redundancy с порогом 90%). Итого осталось 13 последовательностей.
Создание HMM профиля
HMM-профиль был создан с помощью следующих команд:
hmm2build hmmout Final_pr11_sem4.fa
hmm2calibrate hmmout
hmm2search --cpu=1 hmmout pr11_sem4.fasta > hmm_results.txt
Анализ HMM-профиля
Вывод программы hmm отформатирован в Excel и получена таблица. Скриптом из питона получены необходимые графики. Как видно из графика (Рис.1.) длины белков сосредоточены в диапозоне 580-700. Обычно кривая ROC может использоваться для оценки эффективности HMM при классификации биологических последовательностей.
Этапы построения кривой ROC:
1.HMM присваивает оценку каждой последовательности в наборе данных, которая отражает вероятность того, что последовательность принадлежит к семейству белков, которое представляет HMM.
2. Устанавливаются различные пороговые значения для различения положительных (относящихся к семейству) и отрицательных (не относящихся к семейству) последовательностей. Последовательность классифицируется как положительная, если ее оценка превышает пороговое значение, и отрицательная в противном случае.
3.Для каждого порогового значения вычисляются истинно положительный показатель (TPR) и ложноположительный показатель (FPR). TPR - это доля фактических положительных последовательностей, которые были правильно идентифицированы, а FPR - это доля фактических отрицательных последовательностей, которые были неправильно идентифицированы как положительные.
4.Затем строится ROC-кривая с FPR на оси x и TPR на оси y. Чем ближе кривая к левому верхнему углу, тем лучше HMM различает положительные и отрицательные последовательности.
Площадь под кривой ROC (AUC-ROC) также может использоваться в качестве единого показателя для оценки эффективности HMM. Значение AUC, равное 1,0, указывает на идеальную HMM, в то время как значение AUC, равное 0,5, указывает на то, что HMM не лучше случайного угадывания.