Создание профиля

При создании профиля для подсемейства домена PF01743 протеобактерий (Proteobacteria) с доменной архитектурой 2 (PolyA_pol, PolyA_pol_RNAbd, tRNA_NucTran2_2) были отобраны последовательности из одной клады дерева (из прошлого практикума) - "золотой стандарт:

Pro2_Syntrophobacter_fumaroxidan
Pro2_Oceanicaulis sp. HTCC2633
Pro2_Caldicellulosiruptor saccharolyticus
Pro2_Plesiocystis pacifica
Pro2_Caulobacter segnis
Pro2_Stigmatella aurantiaca
Pro2_Corallococcus coralloides

В stk-файл было записано выравнивание последовательностей выбранных белков. С помощью программы hmmbuild с параметрами по умолчанию был получен профиль по этому выравниванию.

Проверка профиля

Для проверки профиля с сервера UniProt были получены последовательности всех белков, содержащих рассматриваемый домен, и записаны в fasta-файл. C помощью программы hmmsearch был произведён поиск по полученному профилю среди этих последовательностей. В качестве параметров задавался E-value: 1e-10 (выдача) и 1e-40 (выдача).

Обсуждение

Для полученных результатов работы программы были рассчитаны значения TP, TN, FP, FN, чувствительность (R) и избирательность (PPV) - расчёты приведены в таблице Excel. Полученный профиль оказался неудачным, т.к. избирательность оказалась слишком маленькой. Возможно, профиль можно улучшить измененим параметров программы hmmbuild.