ПОСТРОЕНИЕ ROC-КРИВОЙ

Задание 1. Определите целевое семейство белков. Составьте список белков семейства из `SwissProt`

К сожалению, домен, который я описывала в Практикуме 7, при поиске в UniProt выдал всего 23 резултата. Поэтому, для выполнения заданий Практикума 8 я выбрала новый домен, AC в Pfam - PF09383 (NIL domain). Этот домен находится в С-концевой области белков-транспортеров АВС, участвующих в транспорте Д-метионина, а также на ряде ферредоксинподобных белков. Этот домен, скорее всего, будет действовать в качестве домена связывания субстрата.
Таким образом, поиск проводился по PfamAC - PF09383. Выбранное целевое семейство - (CLASS) Gammaproteobacteria (database:(type:pfam id:PF09383) taxonomy:enterobacterales AND reviewed:yes). Всего было обнаружено 33 находки. Все они имеют одинаковую доменную архитектуру, представленную на Рис.1.

Рис.1 ABC_tran (PF00005) - ДНК-связывающий домен ABC транспортеров, NIL (PF09383).


Задание 2. Постройте и откалибруйте профиль для целевого семейства

Для построения выравнивания в JalView (Рис.2) были выбраны все 33 последовательности. Они были примерно одной длины и нетрудно заметить, что все последовательности очень похожи дрг на друга, пусть и выделяются три отдельных блока.
Выравнивание доступно для скачивания по ссылке.

Рис.2 Выравнивание, построенное в JalView


Для построения и калибровки профиля использовались команды:
hmm2build -g prof.out pr8.fasta
hmm2calibrate prof.out
Профиль доступен для скачивания по ссылке.

Задание 3. Получите результаты поиска по профилю на множестве последовательностей SwissProt

С помощью команды
hmm2search --domE 1000 --domT -800 prof.out /srv/databases/emboss/data/uniprot/uniprot_sprot.fasta > SwPr.txt
В базе данных SwissProt были найдены соответствующие профилю последовательности. Полученные данные были добавлены в Exel-таблицу, доступную для скачивания по ссылке.

Задание 4. Выберите порог нормализованного веса для находок по профилю

Была построена гистограмма весов находок (Рис.3, ось X - номер находки, ось Y - вес находки) и ROC-кривая (Рис.4, ось X - (1 - Specificity), ось Y - Sensitivity). Судя по Рис.3 и полученным данным (На Листе4 в Exel), порогом можно считать 100 и более (Предположительно, score = 115,5). На гистограмме при этом значении видна ярко выраженная "ступенька", и кроме того, это значение обладает высоким уровнем Specificity (48%) и Sensitivity (100%).

Рис.3 Гистограмма весов находок


Рис.4 ROC-кривая


Positive (SwissProt)
Negative (SwissProt)
Positive (predicted) 33 230
Negative (predicted) 0 214
Sensitivity: 1 Specificity: 0,48 Precision: 0,13


Мне кажется, что подобный метод недостаточно специфичен для определения принадлежности домена к определенной таксономической группе. Найденные в SwissProt находки обладали искомой доменной архитектурой, но не все. Возможно, с повышением уровня таксона, уровень специфичности повышается, но на данном этапе нельзя достоверно судить.



На Главную страницу
На страницу Семестра