Профили
1. Построение профиля домена по выравниванию
Подготовлено выравнивание в формате MSF, файл пересохранен из GenDoc. С помощью программы noreturn пакета EMBOSS убераны символы возврата строки:
noreturn -infile PF07525_1.msf -outfile PF07525_no.msf
Затем добавлены веса последовательностей в выравнивание:
pfw PF07525_no.msf > PF07525_weighted.msf
Создан профиль:
pfmake PF07525_weighted.msf /usr/share/pftools23/blosum62.cmp > PF07525.prf
Создан нормализованный профиль (чтобы можно было выбрать универсальный порог находки):
pfsearch –C 10 –f PF07525.prf /srv/databases/uniprot/sprot_shuffled.fasta | sort -nr > PF07525_scores.txt
pfscale PF07525_scores.txt PF07525.prf > PF07525_scaled.prf
2. Поиск по профилю в банке SwissProt Для поиска по банку SwissProt использован нормализованный профиль (порог нормализованного веса: 300):
pfsearch -C 300.0 -f scaled.prf /srv/databases/uniprot/sprot.fasta | sort -nr > PF07525_scaled_sprot_2.xls
Построен график весов находок pfsearch, отсортированных по убыванию. Красной точкой отмечен порог нормализованного веса для находок из семейства.
Построена ROC-кривая (находка считалась правильной, если в ней имеется домен по данным Pfam):
Можно заключить, что нам удалось сделать профили, позволяющие отличить заданные группы последовательностей.