1. Построить профиль домена по выравниванию и найти всех представителей в банке Uniprot/Swissprot
1. Подготовила выравнивание в формате msf, убрав символы возврата строки при помощи программы noreturn пакета EMBOSS2. Добавила вес последовательностям в выравнивание следующим образом:
pfw ali-n.msf > ali-w.msfali-w.msf
3. Далее я создала профиль:
pfmake ali-w.msf /usr/share/pftools23/blosum62.cmp > ali-fin.prfali-fin.prf
4. Затем создаем нормализованный профиль (нормализация позволяет выбрать универсальный порог веса находки).
pfsearch -C 10 -f ali-fin.prf /srv/databases/uniprot/sprot_shuffles.fasta | sort -nr > score-fin.txt
pfscale scores.txt align.prf > scaled.prfscore-fin.txt
scaled.prf
5. Нашла в SwissProt всех представителей домена, используя поиск по профилю:
pfsearch -C 5.5 -f scaled.prf /srv/databases/uniprot/sprot.fasta | sort -nr > scores1.txtscores1.txt
6. Полученный файл scores_1.txt я проанализировала по находкам PFAM. был построен график весов находок pfsearch и ROC-кривая.
Если судить по первому графику, то порог нормализованного веса в моем случае равен 200.
Проанализировав результаты, можно сделать вывод, что профиль хороший, так как было сделано 4 ошибки первого рода и 1 ошибка второго рода.
Таблица Excel с результатами