Домены и профили

Я выбрала домен PF11471, N-концевое продолжение мальтопоринов внешней мембраны (подробнее о таких белках в пр 6). У этого домена 5 архитектур, я выбрала представленную белком Q7MB44, в ней 97 последостей, длина- 468.

Сначала была проведена позитивная выборка, далее произвела выравнивание, фильтрацию только от N-конца первого до С-конца второго доменов, удаление последовательностей с делециями, дубликатов, высокосходных. По полученному выравниванию произвела обучающую выборку. Для тестовой выборки добавила архитектуру белка P22340 из 1058 белков, длиной 505.

По полученным данным построила и откалибровала НММ-профиль:

hmm2build -g hmm_out.txt dom2_fin.fa
hmm2calibrate hmm_out.txt
hmm2search --cpu 1 hmm_out.txt full.fasta > hmm2search_out.txt

Получились следующие профиль и находки.

Снова использую скрипт из предыдущих практикумов и получаю:

Рис 1. Веса в обучающей выборке

Рис 2. Веса в позитивной выборке

Рис 3. Веса в негативной выборке

Рис 4. ROC-кривая

Рис 5. Зависимость F1 от веса

Модель построилась хорошо, потому что негативная и позитивная выборки разделяются.