Для выполнения задания выбрала домен SesB, который встречается в белках грибов, участвующих в клеточной гибели.
Accession: PF17046
Full: 344
Для данного домена известно 70 архитектур. Возьмем состоящую из PF14479 - PF17046, имеющей двудоменную организацию.
В нём 62 белка.
Затем выровняла в JalView c помощью MUSCLE и обрезала так, чтобы остались только два домена. Затем
я с порогом 87% выделила
тренировочную и
тестовую выборки.
Затем с помощью команд я запустила на kodomo программы из пакета HMMER 2.3.2:
hmm2build hmmout train.fa
hmm2calibrate hmmout
hmm2search --cpu=1 hmmout kleshchenko_full_arch.fasta > hmm_results_arch.txt
Используя таблицу Scores for complete sequences и скрипт
Карина Каримовой
я построила графики.
График 1. Гистограмма весов последовательностей обучающей выборки.
График 2. Гистограмма весов последовательностей тренировочной выборки.
График 3. Гистограмма весов последовательностей тестовой выборки.
График 4. Гистограмма весов последовательностей негативной выборки
График 5. ROC-кривая
График 6. Зависимость параметра F1 от веса
Честно говоря, результаты получились не очень. ROC-кривая вообще на себя не похожа. Так что я могу сказать,
что правильных предсказаний я не вижу.
Большое спасибо за прочтение моего практикума! Хорошего Вам настроения!