Учебный сайт Фоменко Елены
Главная | Семестры | Проекты | Заметки |
Построение профиля домена по выравниванию и поиск представителей в банке Uniprot/SwissProt
Подготовлено выравнивание в формате MSF и сохранено из GenDoc. С помощью программы noreturn пакета EMBOSS убераны символы возврата строки:
noreturn -infile may30_1.msf -outfile may30_2.msf
Добавлены веса последовательностей в выравнивание:
pfw may30_2.msf > may30_weighted.msf
Создан профиль:
pfmake may30_weighted.msf /usr/share/pftools23/blosum62.cmp > may30.prf
Создан нормализованный профиль:
pfsearch –C 10 –f may30.prf /srv/databases/uniprot/sprot_shuffled.fasta | sort -nr > scores.txt
pfscale scores.txt may30.prf > scaled.prf
Нормализация позволяет выбрать универсальный порог веса находки.
Поиск по профилю в банке SwissProt
Для поиска по банку SwissProt использован нормализованный профиль (порог нормализованного веса: 300):
pfsearch -C 300.0 -f scaled.prf /srv/databases/uniprot/sprot.fasta | sort -nr > may30.xls
Построен график весов находок pfsearch, отсортированных по убыванию:
Ступеньку на этом графике можно интерпретировать как порог нормализованного веса для находок из семейства. Построена ROC-кривая (находка считалась правильной в том случае, если в ней имеется домен по данным Pfam):
Можно сделать вывод, что нам удалось все-таки сделать профили, позволяющие отличить заданные группы последовательностей.
Создана таблица Excel с находками.