Я выбрала домен PF11471, N-концевое продолжение мальтопоринов внешней мембраны (подробнее о таких белках в пр 6). У этого домена 5 архитектур, я выбрала представленную белком Q7MB44, в ней 97 последостей, длина- 468.
Сначала была проведена позитивная выборка, далее произвела выравнивание, фильтрацию только от N-конца первого до С-конца второго доменов, удаление последовательностей с делециями, дубликатов, высокосходных. По полученному выравниванию произвела обучающую выборку. Для тестовой выборки добавила архитектуру белка P22340 из 1058 белков, длиной 505.
По полученным данным построила и откалибровала НММ-профиль:
hmm2build -g hmm_out.txt dom2_fin.fa
hmm2calibrate hmm_out.txt
hmm2search --cpu 1 hmm_out.txt full.fasta > hmm2search_out.txt
Получились следующие профиль и находки.
Снова использую скрипт из предыдущих практикумов и получаю:
Рис 1. Веса в обучающей выборке
Рис 2. Веса в позитивной выборке
Рис 3. Веса в негативной выборке
Рис 4. ROC-кривая
Рис 5. Зависимость F1 от веса
Модель построилась хорошо, потому что негативная и позитивная выборки разделяются.