Простейший профиль: частотная матрица
Занятие 11.
1.Строим частотную матрицу (профиль) по участку выравнивания программой prophecy
Для этого создаем файл, содержащий частичное выравнивание (без контрольной группы).
После запускания на kodomo прогаммы prophecy (при этом используем файл с частичным выравниванием, на все вопросы отвечаем по умолчанию, кроме вопроса о пороге ("Enter threshold reporting percentage"), на который отвечаем "30"), получаем файл all_aligned.prophecy. Картинка ниже:
Колонки описывают аминокислоты A -> Z
Строчки позиции выравнивания 1 -> n
2.Проводим в бактериальных белках из Swiss-Prot поиск участков, дающих счёт выше 30 при сравнении с созданным вами профилем
С помощью программы profit нашли:
Всего находок: 88479;
Счет больше 40: 1170;
Счет больше 50: 616;
Счет больше 60: 548;
Ограничимся счетом более 40, т.к. всего находок более 10000.
Итак, составлена таблица. См. лист "табл".
3. Анализируем список найденных белков и сравниваем его со списком всех белков подсемейства
Характиристики списка найденных белков:
Число верных находок ("True positive hits", TP): 54;
Число ложных находок ("False positive hits", FP): 1116;
Число ненайденных белков подсемейства (ложноотрицательных результатов, "False negatives", FN): 1;
Чувствительность TP/(TP+FN): 98,18%;
Селективность TP/(TP+FP): 4,41%.
Построили ROC-кривую. См. лист "ROC" в файле EXCEL
Или на картинке:
Возьмем порог 51.
Для нее характеристики:
Число верных находок ("True positive hits", TP): 51;
Число ложных находок ("False positive hits", FP): 2;
Число ненайденных белков подсемейства (ложноотрицательных результатов, "False negatives", FN): 4;
Чувствительность TP/(TP+FN): 92,72%;
Селективность TP/(TP+FP): 96,22%.
Xарактеристики для моего паттерна:
Число верных находок ("True positive hits", TP): 48;
Число ложных находок ("False positive hits", FP): 0;
Число ненайденных белков подсемейства (ложноотрицательных результатов, "False negatives", FN): 7;
Чувствительность TP/(TP+FN): 87,27%;
Селективность TP/(TP+FP): 100%.
Построили ROC-кривую. См. лист "селект" в файле EXCEL
Или на картинке:
© Сергеева Ирина 2009-2011