Предыдущий практикум я делала по семейству циклотид(PF03784). В нем есть 2 крупных подсемейства - браслетные и мебиусные циклотиды. В практикуме построен HMM профиль, который отличает одни циклотиды от других.
Для построения профиля было выбрано подсемейство браслетных циклотид(PS60008). В Pfam лежало 238 последовательностей белков этого подсемейства, из них "Reviewed" - 122 белка, "Unreviewd" - 116. Были скачаны верифицированнные белки и выравнены программой muscle. Далее выравнивание было обрезано так, чтобы остался только домен. С помощью Remove Redundancy с порогом 90% были удалены схожие последовательности - осталось 40. Они были сохранены в файл for_profile.fasta - далее его использую для построения профиля.
hmm2build -g profile.hmm for_profile.fasta
- построение профиля
hmm2calibrate profile.hmm
- калибровка профиля
hmm2search --cpu 1 profile.hmm bracelet.fasta > search_positive.txt
- положительный контроль
hmm2search --cpu 1 profile.hmm mebius.fasta > search_negative.txt
- отрицательный контроль
С помощью скрипта была построена гистограмма весов, ROC-кривая и F1-кривая. В качестве порога может быть взято любое значение в интервале (11.5, 37.4) - веса белков разных подсемейств сильно отличаются.