Profile

Программа prophecy. Матрица выравнивания

Программа prophecy строит матрицу выравнивания. Если в текстовом редакторе открыть полученный файл, то, помимо матрицы чисел, там обнаруживается краткая справка, как это читать (за что спасибо авторам программы).

Итак, как читается матрица: номер строки - это позиция аминокислоты в последовательности, номер столбца - это аминокислота (от A до Z). Цифра обозначает суммарное количество той или иной аминокислоты в данном месте у всех последовательностей.

Для тех, кто хочет ознакомиться с файлом
Выравнивание

Сравнение профилей

С учетом порога в 30% было получено 14016 последовательностей (некоторые повторяются). Наиболее приемлимым, как я посчитал, было взять все белки от 40% и выше

Для взятого минимума 40% характеристики поиска: TP: 94; FP: 761; FN: 0; Чувствительность - 100%. Селективность: 11%

Здесь таблица для TP; FP и прочих характеристик

ROC-кривая. Горизонтальная координата точки - FP (что в большинстве ранних случаев равняется 0), вертикальная - TP. В целом получилось хорошо

Prophecy теряет селективность ниже 50%, но заметно она падает лишь ниже 40%. Чувствительность же обычно на высоте.

Сравнение чувствительности паттерна и профиля при равной селективности

Селективность созданного паттерна - 91,5%. Наиболее близкая к этому селективность - 91,2. Оно соответствует порогу 73, чувствительность 100%. Однако, как видно из графика ниже, есть еще одно значение чувствительности для 91% селективности: оно находится близ 37% и пороге 90%. Это вызвано падением кол-ва TP и, тем самым, уменьшения значения селективности, соответствующему TP/(TP+FP)

График взаимосвязи чувствительности и селективности профиля. Селективность - ось X; Чувствительность - ось Y

Исходя из полученных данных, можно сделать вывод о том, что поиск по профилю выгоднее, чем поиск по паттерну (разница в 8,5%) Назад