Создание профиля
При создании профиля для подсемейства домена PF01743 протеобактерий (Proteobacteria) с доменной архитектурой 2 (PolyA_pol, PolyA_pol_RNAbd, tRNA_NucTran2_2) были отобраны последовательности из одной клады дерева (из прошлого практикума) - "золотой стандарт:
Pro2_Syntrophobacter_fumaroxidan Pro2_Oceanicaulis sp. HTCC2633 Pro2_Caldicellulosiruptor saccharolyticus Pro2_Plesiocystis pacifica Pro2_Caulobacter segnis Pro2_Stigmatella aurantiaca Pro2_Corallococcus coralloides
В stk-файл было записано выравнивание последовательностей выбранных белков. С помощью программы hmmbuild с параметрами по умолчанию был получен профиль по этому выравниванию.
Проверка профиля
Для проверки профиля с сервера UniProt были получены последовательности всех белков, содержащих рассматриваемый домен, и записаны в fasta-файл. C помощью программы hmmsearch был произведён поиск по полученному профилю среди этих последовательностей. В качестве параметров задавался E-value: 1e-10 (выдача) и 1e-40 (выдача).
Обсуждение
Для полученных результатов работы программы были рассчитаны значения TP, TN, FP, FN, чувствительность (R) и избирательность (PPV) - расчёты приведены в таблице Excel. Полученный профиль оказался неудачным, т.к. избирательность оказалась слишком маленькой. Возможно, профиль можно улучшить измененим параметров программы hmmbuild.