Задание 1. Построение профиля подсемейства
Мною было выбрано подсемейство, представленное на Рис. 1, представляющее так называемое "хорошее" подсемейство. Оно образовано b-протеобактериями, обладающими 2-ым типом архитектуры CHASE-домена.
Рис. 1. Выбранное подсемейство
Для построения и калибровки профиля использовались программы пакета HMMER 2.3.2.
hmm2build myprofile partalign.mfa
— для построения профиля по выравниванию подсемейства (partalign.mfa
);
hmm2calibrate myprofile
— для калибровки полученного профиля myprofile
.
Далее был проведен поиск по всем последовательностям из UniProt, включающих CHASE-домен (uniprot-pf03924.fasta
):
hmm2search myprofile uniprot-pf03924.fasta > hits
Полученный файл hits
с находками далее анализировался при помощи средств MS Excel. На листе analysis добавлена специальная колонка 'IN SUBFAMILY', в ячейках которой стоят 0 или 1 в зависимости от того, входит ли
соответствующая последовательность в подсемейство.
Выбор порога для профиля
Сперва была построена гистограмма весов находок. Для определения оптимального числа n
бинов гистограммы использовалась формула Стёрджесса:
n = [1 + 3.22logN],где N — число уникальных значений наблюдаемых скоров. Для полученного значения
n = 11
были рассчитаны интервалы, соответствующие бинам, и, наконец, построена гистограмма, приведенная на Рис. 2. Поэтапные вычисления содержатся на листе distrib.
Рис. 2. Распределение нормализованных весов
Далее был проведен так называемый ROC-анализ. На отдельном листе roc-curve были подсчитаны следующие показатели: TP, FP, FN, TN. Но для анализа применяют не собственно эти значения, а соотношения между ними. В нашем случае для построения ROC-кривой (англ. receiver operating characteristic — рабочая характеристика приёмника)
потребуются такие показатели, как TPR
(true positive rate) = SEN
и FPR
(false positive rate) = 1 – SPE, где SEN
— чувствительность, SPE — специфичность
, определяемые по следующим формулам:
ROC-кривая, полученная при варьировании порога по нормализованному скору, приведена на Рис. 3.
Рис. 3. ROC-кривая
Исходя из критерия максимальности суммы SEN+SPE
было получено оптимальное значение скора в 409,6
. Наблюдаемое распределение приведено в на листе threshold и в Таблице 1.