Анализ результатов поиска по профилям

Выравнивание представителей домена, построенное в практикуме 9, было разделено на две группы по архитектуре. Решение принято после анализа деревьев: последовательности достаточно хорошо разделились по архитектурам.

Построение профиля

Использовались выравнивания: SS.msf и RS.msf.

noreturn -infile SS.msf -outfile SS_no.msf
pfw SS_no.msf > SS_weighted.msf
pfmake SS_weighted.msf /usr/share/pftools23/blosum62.cmp > SS.prf

Команды повторили для выравнивания RS.msf.

Поиск по профилю в исходных последовательностях

Cоздан файл со всеми последовательностями в формате fasta. Затем проведен поиск по профилю в исходных последовательностях. Порог веса поставим маленьким (-C 0.0), чтобы в выдаче остались все последовательности:

pfsearch –C 0.0 –f SS.prf selected.fa | sort -nr > SS.xls
pfsearch –C 0.0 –f RS.prf selected.fa | sort -nr > RS.xls

Построение ROC-кривой по полученным данным и анализ результатов поиска

Таблица Excel В таблицах выделены последовательности, принадлежащие профилям. Построены графики весов находок pfsearch, отсортированных по убыванию.

SS:

RS:

ROC-кривые (SS и RS):

SS:



RS:

Ошибки первого рода для обеих архитектур оказались довольно значительными (около 30%). Сделаем вывод, что, возможно, такое разбиение белков неоптимально в данном случае.