Домены и профили

Предыдущий практикум я делала по семейству циклотид(PF03784). В нем есть 2 крупных подсемейства - браслетные и мебиусные циклотиды. В практикуме построен HMM профиль, который отличает одни циклотиды от других.

Для построения профиля было выбрано подсемейство браслетных циклотид(PS60008). В Pfam лежало 238 последовательностей белков этого подсемейства, из них "Reviewed" - 122 белка, "Unreviewd" - 116. Были скачаны верифицированнные белки и выравнены программой muscle. Далее выравнивание было обрезано так, чтобы остался только домен. С помощью Remove Redundancy с порогом 90% были удалены схожие последовательности - осталось 40. Они были сохранены в файл for_profile.fasta - далее его использую для построения профиля.

hmm2build -g profile.hmm for_profile.fasta - построение профиля

hmm2calibrate profile.hmm - калибровка профиля

hmm2search --cpu 1 profile.hmm bracelet.fasta > search_positive.txt - положительный контроль

hmm2search --cpu 1 profile.hmm mebius.fasta > search_negative.txt - отрицательный контроль

С помощью скрипта была построена гистограмма весов, ROC-кривая и F1-кривая. В качестве порога может быть взято любое значение в интервале (11.5, 37.4) - веса белков разных подсемейств сильно отличаются.