УЧЕБНЫЙ САЙТ
Буяновой Мишель
ФАКУЛЬТЕТ БИОИНЖЕНЕРИИ
И БИОИНФОРМАТИКИ МГУ им. М.В. ЛОМОНОСОВА
Семестр IV Семестр III Семестр II Cеместр I

Все промежуточные действия и результаты содержатся в [xlsx]-файле, доступном для скачивания.

Задание 1. Построение профиля подсемейства

Мною было выбрано подсемейство, представленное на Рис. 1, представляющее так называемое "хорошее" подсемейство. Оно образовано b-протеобактериями, обладающими 2-ым типом архитектуры CHASE-домена.

Рис. 1. Выбранное подсемейство

Для построения и калибровки профиля использовались программы пакета HMMER 2.3.2.

hmm2build myprofile partalign.mfa — для построения профиля по выравниванию подсемейства (partalign.mfa);

hmm2calibrate myprofile — для калибровки полученного профиля myprofile.

Далее был проведен поиск по всем последовательностям из UniProt, включающих CHASE-домен (uniprot-pf03924.fasta):

	hmm2search myprofile uniprot-pf03924.fasta > hits

Полученный файл hits с находками далее анализировался при помощи средств MS Excel. На листе analysis добавлена специальная колонка 'IN SUBFAMILY', в ячейках которой стоят 0 или 1 в зависимости от того, входит ли соответствующая последовательность в подсемейство.

Выбор порога для профиля

Сперва была построена гистограмма весов находок. Для определения оптимального числа n бинов гистограммы использовалась формула Стёрджесса:

	n = [1 + 3.22logN],
где N — число уникальных значений наблюдаемых скоров. Для полученного значения n = 11 были рассчитаны интервалы, соответствующие бинам, и, наконец, построена гистограмма, приведенная на Рис. 2. Поэтапные вычисления содержатся на листе distrib.

Рис. 2. Распределение нормализованных весов

Далее был проведен так называемый ROC-анализ. На отдельном листе roc-curve были подсчитаны следующие показатели: TP, FP, FN, TN. Но для анализа применяют не собственно эти значения, а соотношения между ними. В нашем случае для построения ROC-кривой (англ. receiver operating characteristic — рабочая характеристика приёмника) потребуются такие показатели, как TPR (true positive rate) = SEN и FPR (false positive rate) = 1 – SPE, где SEN — чувствительность, SPE — специфичность, определяемые по следующим формулам:

ROC-кривая, полученная при варьировании порога по нормализованному скору, приведена на Рис. 3.

Рис. 3. ROC-кривая

Исходя из критерия максимальности суммы SEN+SPE было получено оптимальное значение скора в 409,6. Наблюдаемое распределение приведено в на листе threshold и в Таблице 1.

Таблица 1. Распределение при пороге E-value 2.8e-120