Профили

1. Построение профиля домена по выравниванию

Подготовлено выравнивание в формате MSF, файл пересохранен из GenDoc. С помощью программы noreturn пакета EMBOSS убераны символы возврата строки:

noreturn -infile PF07525_1.msf -outfile PF07525_no.msf

Затем добавлены веса последовательностей в выравнивание:

pfw PF07525_no.msf > PF07525_weighted.msf

Создан профиль:

pfmake PF07525_weighted.msf /usr/share/pftools23/blosum62.cmp > PF07525.prf

Создан нормализованный профиль (чтобы можно было выбрать универсальный порог находки):

pfsearch –C 10 –f PF07525.prf /srv/databases/uniprot/sprot_shuffled.fasta | sort -nr > PF07525_scores.txt
pfscale PF07525_scores.txt PF07525.prf > PF07525_scaled.prf

2. Поиск по профилю в банке SwissProt Для поиска по банку SwissProt использован нормализованный профиль (порог нормализованного веса: 300):

pfsearch -C 300.0 -f scaled.prf /srv/databases/uniprot/sprot.fasta | sort -nr > PF07525_scaled_sprot_2.xls

Построен график весов находок pfsearch, отсортированных по убыванию. Красной точкой отмечен порог нормализованного веса для находок из семейства.

Построена ROC-кривая (находка считалась правильной, если в ней имеется домен по данным Pfam):

Можно заключить, что нам удалось сделать профили, позволяющие отличить заданные группы последовательностей.