Простейший профиль: частотная матрица
Задание 1. Построение частотной матрицы по участку выравнивания программой prophecy
Файл с частичным выравниванием
Полученный выходной файл
Выходной файл содержит в себе частотную матрицу, а также длину профиля и консенсусную последовательность.
Задание 2. Поиск участков в бактериальных белках из Swiss-Prot, дающих счёт выше 30 при сравнении с созданным профилем
Файл, полученный программой profit
Excel файл
Всего находок: 4257
Находок, имеющих счет больше 40: 786
Находок, имеющих счет больше 50: 783
Находок, имеющих счет больше 60: 774
После создания сводной таюлицы, были отсеяны повторы, и количество белков уменьшилось на 73 (стало 4182)
Задание 3. Анализ список найденных белков и сравнение его со списком всех белков подсемейства
Характеритстики списка найденых белков (все белки):
Число верных находок ("True positive hits", TP) - 155
Число ложных находок ("False positive hits", FP) - 4027
Число ненайденных белков подсемейства ("False negatives", FN) - 0
Чувствительность TP/(TP+FN) - 1
Селективность TP/(TP+FP) - 0,03706
Если попытаться добиться таких же показателей, как в предыдущем задании, можно поднять порог до 82 - тогда количество верных находок уменьшится на одну (та которая находится при пороге 71), а количество ложных будет 366, следовательно селективность будет равняться 0,3, а чувствительность - 0,9935.
Если же постараться повысить селективность, то можно поднять порог до 90 - тогда селективность станет равной 0,78, а чувствительность 0,87. Так как при селективности 0.78 чувствительность уже меньше чем у паттерна, можно сделать вывод, что паттерн работает лучше.
ROC-кривая
© Almukhametov Azat