Подготовка материалов
На основе данных о эволюционных доменах получена выборка для домена Cyclin_N (pfam:PF00134) c архитектурой Cyclin_N в подтаксоне Fungi. Далее для работы скачан fasta-файл содержащий все 6213 белковые последовательности с сайта pfam, содержащие домен Cyclin_N. И создан fasta-файл содержащий все белки принадлежащие к семейству Cyclin_N и таксону Fungi и при этом содержащие архитектуру Cyclin_N.
Использование пакета HMMER 2.3.2
С помощью программы hmm2build построен профиль по малой выборке. Программой hmm2calibrate профиль откалиброван. На основе данных в всех последовательностях с доменом Cyclin_N произведен поиск профиля программой hmm2search. К-во находок сравнивалось с золотым стандартом, т.е. с к-вом белков принадлежащих семейству Cyclin_N и таксону Fungi и при этом содержащих архитектуру Cyclin_N. Порог e-value был 1e-6. Результат обработки данных представлен в Таблице 1. Обозначения: TP (пложительные результы), TN (действительно отрицательные), FP (ложно положительные), FN (ложно отрицательные),чувствительность (она же Recall или "True positive rate") R = TP/(TP+FN) иизбирательность (она же точноcть, она же "Positive prediction value") PPV = TP/(TP+FP). Как видно из Таб.1 по результатам чувствительности и изберательности, пратерн работает не плохо.
БД для поиска | золотой стандарт | результатов | TP | FP | TN | FN | R=TP/(TP+FN) | PPV=TP/(TP+FP) |
6313 | 582 | 236 | 171 | 65 | 5666 | 411 | 0,293814433 | 0,7245762712 |
Таблица 1.Результаты рассчетов для паттерна.