Создание профиля
Для создания профилей были выбраны следующие последовательности:
16_P_A4BA69_9GAMM 16_P_B3PHW3_CELJU 16_P_D0LQ00_HALO1 16_P_Q09IY8_LYSEN 16_P_Q6BCG0_LYSEN 16_P_Q8GCZ5_LYSEN
Эти последовательности относятся к архитектуре Glyco_hydro_16 + CBM_6 и к филуму Proteobacteria. На дереве они образуют отдельную кладу.
Для построения профиля сервере kodomo воспользовалась пакетом HMMER 3.0. Для этого в JalView выбранные выровненные последовательности были сохранены в формате .stk. Коммандой
hmmbuild align.hmm prof.stk
был построен профиль.
Проферка профиля
C помощью команды
hmmsearch -o search.out align.hmm seq.fasta
был произведен поиск профилем по всем последовательностям, включающим изучаемый домен CBM_6. В этом файле находилось 1477 последовательностей, профилем нашлось 1243, что не столь отличается от исходного файла.
В таблице Excel приведены все расчеты и оценки работы профиля.
Порог на E-value: 0,0001 TP 5 FP 1092 TN 380 FN 0 R (чувствительность) 1 PPV (избирательность) 0,004557885
Порог на E-value 1,00E-44 TP 5 FP 34 TN 1438 FN 0 R (чувствительность) 1 PPV (избирательность) 0,128205128
Избирательность профиля низкая, последовательности из золотого стандарта проходят по нижней границе e-value: 1е-44, т.е. сделать выше избирательность уже нельзя, не понизив чувстительность.