Создание профиля по выравниванию семейства белков

Задача: с помощью профиля, составленого программой prophecy провести поиск белков бактерий, пользуясь программой profit и сравнить результат с поиском по паттерну Prosite, т.е. верным списком.

Выдача программы prophecy

Для составления профиля был взят фрагмент выравнивания hit_all.msf, не соответствующий участку, по котрому был построен паттерн (см. файл). В выходном файле программы prophecy - матрица частот аминокислотных остатков. По столбцам - счет аминокислот,
по строкам - позиции в выравнивании. Указан размер профиля (length), максимальный счет и строка консенсуса.

Файл был получен следующим образом:

  1. Команда prophecy
  2. Input (aligned) sequence set: copy-latest .msf
  3. Выбираем ряд опций по умолчанию
  4. Enter threshold reporting percentage [75]: 30
  5. Output file [copy-latest.prophecy]: соглашaемся

Использование profit

Последовательность действий

  1. Команда profit
  2. Profile or weight matrix file: copy-latest.prophecy
  3. Input sequence(s):/home/export/samba/public/y09/Term4/Materials/bacteria.fasta
  4. Output file [copy-latest.profit]: соглашаемся

Анализ списка находок

При пороге 30 находится 45754 находки.
Если повысить порог до 40, то всего 1292, >=50 - 630 находок, >=60 - 565.

Сравнивать списки будем с помощью функции ВПР. Будем искать наши находки в списке верных белков. Находки, которые совпадут - true positves, а остальные - false positives. Файлы с матрицей и списком находок лежат в директории: H:\Term4\Practice11.

Селективность и чувствительность при разных порогах

При значении порога 90 селективность наиболее близка к селективности паттерна, т.е. к 1.

ROC - кривые при разных порогах