Карань Анна
студентка факультета биоинженерии и бионформатики

Профили

Задание 1. Построить профиль подсемейства и проверить его работу

Сначала необходимо было выбрать подсемейство из выравнивания последовательностей домена, исследованного в прошлом праке. Подсемейство будем считать хорошим, если оно является кладой на дереве и если есть некоторые признаки (доменная архитектура, таксономическая принадлежность или диагностические позиции), по которым можно отнести домен к данному подсемейству. Как подсемейство было выбрано 10 последовательностей, относящихся к Dikarya и имеющих одну доменную архитектуру - Cyclin_N, а также несколько диагностических позиций, например 131, 168 (Рис.1)

Рис.1 Выравнивание выбранного подсемейства

Далее для выбранного подсемейства необходимо построить профиль. Для этого использовалась программа HMMER. Сначала был построен профиль:

hmm2build profile.out fam_al.fasta

Полученный файл - profile.out. Полученный файл был откалиброван:

hmm2calibrate profile.out

Далее из практикума 11 был взят файл с последовательностями белков, содержащих исследуемый N домен циклина - uniprot.txt. По полученному файлу производился поиск гомологов по для итогового профиля:

hmm2search profile.out uniprot.txt > findings.out

Все найденные гомологи лежат в файле - findings.out.

Построение ROC-кривой и гистограммы весов находок

ROC-кривая (англ. receiver operating characteristic, рабочая характеристика приёмника) — график, позволяющий оценить качество бинарной классификации, отображает соотношение между долей объектов от общего количества носителей признака, верно классифицированных как несущих признак, (true positive rate, TPR, называемой чувствительностью алгоритма классификации) и долей объектов от общего количества объектов, не несущих признака, ошибочно классифицированных как несущих признак (false positive rate, FPR, величина 1-FPR называется специфичностью алгоритма классификации) при варьировании порога решающего правила.
Также известна как кривая ошибок. Анализ классификаций с применением ROC-кривых называется ROC-анализом.
Файл с находками был открыт в Excel (лист 'profile'). Затем на другом листе ('roc') для каждого значения порога были подсчитаны шесть описанных выше значения: TP, TN, FP и FN, а также SP и SN. Также были посчитаны значения 1-SP и построен график зависимости SЕ от 1–SP (сто процентов минус специфичность). Полученный график и есть ROC-кривая (Рис.2 ). Файл Excel - results.xlsx.
Эта кривая необходима для выбора порога, попробуем её воспользоваться. Наилучший порог тот, для которого SP и SE одновременно максимальны, т.е. лучшая чувствительность и специфичность, а это то же самое, что и максимальное значение SP+SE-1. Максимальное значение SP+SE-1 оказалось равно 0,88 для e-value равному 8.1E-99, при этом SP = 0,98, а SE = 0,9, т.е. подсемейство должно выделяться достаточно достоверно.
На Рис. 3 показана гистограмма весов находок.

Рис.2. ROC-кривая

Рис.3. Гистограмма весок находок


©Карань Анна, 2015