Пакет Pftools
- Рассчитать вес строк выравнивания
В исходном файле каждая последовательность имела вес = 1. В обработанном файле, последовательности имеют разный вес,
в зависимости от их "степени отличия" (чем сильнее последовательность отличается от остальных, тем больше её вес). Если сложить вес
всех последовательностей - получится примерно единица.
- Создание профиля и поиск по профилю
pfsearch -C2.0 -f all.prf bacteria.fasta > my.pfsearch
Профиль - my.prf
Находок было слишком много поэтому я поставила порог 2.0
- Анализ результатов
-
Нашлось 9015 последовательностей с весом больше 2
С весом более 3 - 287 находки
более 4 - 138
более 5 - 88
Максимальный вес - 5.69
-
Составила сводную таблицу - количество строк уменьшилось. Примерно в 290 белках было найдено по два участка.
Файл Excel со сводной таблицей
-
Характеритстики списка найденых белков (порог - 2.0):
Число верных находок ("True positive hits", TP) - 58
Число ложных находок ("False positive hits", FP) - 8957
Число ненайденных белков подсемейства ("False negatives", FN) - 0
Чувствительность TP/(TP+FN) - 1
Селективность TP/(TP+FP) - 0,0064
-
У созданнного на позапрошлом занятии паттерна селективность и чувствительность равнялись 1. Чтобы добиться близкого значения селективности у профиля
, необходимо поставить порог 5,58. При таком пороге значение чувствительности у профиля (как и для всех белков, так и для RL15)- 0,88.
-
ROC-кривая:
Четвертый семестр
© Чернецова Даша