Учебный сайт Фоменко Елены

Главная Семестры Проекты Заметки

Построение профиля домена по выравниванию и поиск представителей в банке Uniprot/SwissProt

Подготовлено выравнивание в формате MSF и сохранено из GenDoc. С помощью программы noreturn пакета EMBOSS убераны символы возврата строки:

noreturn -infile may30_1.msf -outfile may30_2.msf

Добавлены веса последовательностей в выравнивание:

pfw may30_2.msf > may30_weighted.msf

Создан профиль:

pfmake may30_weighted.msf /usr/share/pftools23/blosum62.cmp > may30.prf

Создан нормализованный профиль:

pfsearch –C 10 –f may30.prf /srv/databases/uniprot/sprot_shuffled.fasta | sort -nr > scores.txt

pfscale scores.txt may30.prf > scaled.prf

Нормализация позволяет выбрать универсальный порог веса находки.

Поиск по профилю в банке SwissProt

Для поиска по банку SwissProt использован нормализованный профиль (порог нормализованного веса: 300):

pfsearch -C 300.0 -f scaled.prf /srv/databases/uniprot/sprot.fasta | sort -nr > may30.xls

Построен график весов находок pfsearch, отсортированных по убыванию:

Ступеньку на этом графике можно интерпретировать как порог нормализованного веса для находок из семейства. Построена ROC-кривая (находка считалась правильной в том случае, если в ней имеется домен по данным Pfam):

Можно сделать вывод, что нам удалось все-таки сделать профили, позволяющие отличить заданные группы последовательностей.

Создана таблица Excel с находками.


© Фоменко Елена.