Учебный сайт Сергея Маргасюка

Построение профиля

В практикуме 11 было показано, что на выравнивании Pfam значительно различаются две группы белков, соответствующих доменным архитектурам 1 и 2 соответственно: дерево делится на 2 клады, соответствующие почти точно архитектурам. Выделим одну из этих клад (соответствующую архитектуре 1) в гипотетическое подсемейство и построим соответствующий профиль. В Jalview получено (на основе выравнивания из Pfam) выравнивание этих генов; из него были удалены вручную участки с большим количеством гэпов (ссылка).

По этому выравниванию был построен профиль HMM.

Выберем пороговое значение T. Для этого найдем T с помощью нашей HMM на файле subfamily1.fasta (последовательности принадлежат к подсемейству) и файле subfamily2.fasta (последовательности принадлежат к подсемейству). С помощью Excel (roc.ods)была получена кривая ROC для этой HMM.

Рисунок 1: ROC

График показывает, что (при отсутствии причин для предпочтения повышения TDR или понижения FDR) оптимальный выбор порога — на уровне TDR около 0.6 (T = 198, минмальный E-value находки = 3.4e-58).

Применим HMM с найденным порогом ко всем генам из выравнивания Pfam, содержащим домен Maelstrom. Часть выдачи (список генов) была помещена в скрипт на R (1.R) и сравнена со списком всех генов с архитектурой 1 из практикума 11: из 68 найденных HMM генов 25 имеют архитектуру 1. Чувствительность HMM 21%, специфичность 58%

Таблица 1: параметры HMM
в подсемействе вне подсемейства сумма
выше порога 25 43 68
ниже порога 81 61 152
сумма 116 104 220

У метода недостаточная чувствительность при достаточно высокой специфичности: многие гены из подсемейства не были найдены.


© Сергей Маргасюк, 2015-2016