ROC-кривая

Задание 1. Определение целевого списка белков

Для работы был выбран домен Nucleoplasmin (PF03066). Пользуясь сайтом Uniprot был осуществлен следующий поиск:

database:(type:pfam id:PF03066) taxonomy:"Chordata [7711]" AND reviewed:yes


В результате было найдено 15 белков. Выравнивание этих белков представлено на рисунке 1. Проект выравнивания и fasta-файл можно скачать здесь: [ссылка на jvp-проект], [ссылка на fasta-файл].

Рисунок 1. Выравнивание найденных белков




Задание 2. Построение и калибровка профиля для целевого семейства

Далее был создан и откалиброван HMM-профиль по полученному выравниванию. Для этого были использованы следующие команды:

hmm2build -g hmm_nuc_profile3.out pr8_nuc_mfa.fa
и
hmm2calibrate hmm_nuc_profile3.out

Полученный hmm-профиль вы можете увидеть здесь: [ссылка]

Задание 3. Получение результатов поиска по профилю на множестве последовательностей SwissProt

Для поиска по профилю была применена следующая команда:

hmm2search --domE 1000 --domT -50 hmm_nuc_profile3.out /srv/databases/emboss/data/uniprot/uniprot_sprot.fasta > pr8_nuc_search.out

Рисунок 2. Полученная гистограмма



[ссылка на таблицу с построенной гистограммой]
[ссылка на таблицу с данными]

Задание 4. ROC-кривая

Для выбора порога необходимо максимизировать SE и SP (т.е. выбрать такую пару, для которой максимально значение (SE+SP-1)). SE = TP/(TP+FN), a SP = TN/(TN+FP). Для выбранного профиля это значение оказалось равным 0,5385, вес - 157,7. ( TP = 5, FN = 3, TN = 7, FP = 6).
[ссылка на таблицу с данными] [ссылка на таблицу с построеной ROC-кривой]

Рисунок 3. ROC-кривая



По рисунку 3 видно, что предложенный профиль позволяет отобрать представителей подсемейства, но качество его работы оставляет желать лучшего, т.к. площадь под кривой весьма мала.