Сайт Expasy, составной частью которого является Prosite, имеет несколько зеркал: корейское (http://kr.expasy.org), китайское (http://cn.expasy.org), бразильское (http://br.expasy.org), канадское (http://ca.expasy.org) и австралийское http://au.expasy.org). На данный момент (24 апреля 2008 г.) сервис Prosite работает на всех зеркалах (см. ответ, пришедший на моё письмо в Prosite), но всякое может быть...
В окошко "Scan a sequence against PROSITE patterns and profiles" внесите либо последовательность, либо её AC или ID в UniProt и нажмите "Scan". Дождитесь результата. На странице с результатами подробная информация о найденных паттернах и профилях доступна по гиперссылкам, привязанным к номерам доступа записей Prosite (начинаются с "PS", например PS00033).
На страничке с документацией паттерна вам нужны разделы Description (кратко переводите или пересказываете своими словами описание и вставляете в протокол) и Technical section. В последнем можно найти как сам паттерн, так и его характеристики (сколько последовательностей семейства им не находятся и сколько лишних находятся).
Второй способ. Воспользуйтесь командой fuzzpro пакета EMBOSS. Чтобы ограничить поиск, скажем протеобактериями, можно указать в качестве последовательностей для поиска "sw-org:proteobacteria". Чтобы каждый раз не выписывать длинный паттерн в ответ на вопрос или в командной строке, можно поместить его в файл (без переносов строки!) и вызывать в командную строку следующим образом:
fuzzpro -pattern "`cat mypattern.txt`"(здесь "mypattern.txt" имя файла, двойные кавычки защищают возможные в паттерне пробелы и скобки, а обратные кавычки означают, что в это место должен быть вставлен результат выполнения команды; в данном случае это команда cat, выводящая на stdout содержимое файла). Список находок в простой форме можно получить из выходного файла командой grep.
einsi sequences.fasta > alignment.fastaдля быстрого выравнивания большого количества последовательностей muscle. Предварительно, разумеется, надо создать файл с последовательностями в fasta-формате.
Как работать с GeneDoc, см. здесь (обратите внимание на п.11 в нашем случае тоже надо создать группу, но включить в неё последовательности из подсемейства). Рекомендуется покрасить исходный паттерн во всех последовательностях (см. пункт 4); если вдруг паттерн не выровнялся, то поправьте выравнивание вручную.
Чтобы подровнять к готовому выравниванию ещё одну последовательность, можно использовать программу mafft-profile:
mafft-profile alignment.fasta sequence_add.fasta > alignment2.fastaВпрочем, можно и руками в GeneDoc.
Другой (и предпочтительный) вариант писать Perl-скрипты.
man pfw man pfmake man pfsearchВот краткая инструкция:
noreturn xxxxxxx.msf xxxxxxx.noreturn.msf
pfw xxxxxxx.noreturn.msf > xxxxxxx.weighted.msf
pfmake xxxxxxx.weighted.msf /usr/share/pftools23/blosum45.cmp > xxxxxxx.prf
autoscale -m xxxxxxx.prf > xxxxxxx.scaled.prfНайдите, что изменилось в профиле! Редактировать вручную нормированный профиль уже нельзя нормировка "собьётся".
Если есть желание, выполните нормировку относительно большой базы 'случайных' последовательностей (SwissProt, в котором перемешаны буквы во всех последовательностях) так же, но опустив параметр -m. Нормировка по большой базе занимает несколько десятков минут.
seqret sw-org:bacteria bacteria.fasta(все последовательности из бактерий). Следите за квотой результирующий файл "весит" почти 80M! После окончания работы будет необходимо его удалить.
pfsearch -f xxxxxxx.scaled.prf bacteria.fasta > xxxxxxx.pfsearch(параметр '-f' говорит, что файл с последовательностями имеет формат fasta). Поиск займёт около 10 минут.
pfsearch -hВажный параметр такой: "-C<число>" (например -С6.2). Это порог нормализованного веса, отделяющий находки. По умолчанию равен 8.5. Чтобы убедиться, насколько хорошо отделяет профиль правильные находки от неправильных, иногда интересно снизить этот порог, чтобы получить в выдаче и заведомо неправильные находки; обычно у неправильных находок нормализованный вес < 6.5