Сайт швейцарского института Expasy, составной частью которого является ProSite, имеет несколько зеркал: корейское (http://kr.expasy.org/), китайское (http://cn.expasy.org/), бразильское (http://br.expasy.org/), канадское (http://ca.expasy.org/) и австралийское (http://au.expasy.org/). На данный момент (19 апреля 2011 г.) сервис Prosite неправильно работает на бразильском зеркале, на остальных вроде бы всё в порядке.
В окошко "Scan a sequence against PROSITE patterns and profiles" внесите либо последовательность, либо её AC или ID в UniProt и нажмите "Scan". Дождитесь результата. На странице с результатами подробная информация о найденных паттернах и профилях доступна по гиперссылкам, привязанным к номерам доступа записей Prosite (начинаются с "PS", например PS00033).
На страничке с документацией паттерна (PDOC) вам нужны разделы "Description" (кратко переводите или пересказываете своими словами описание и вставляете в отчёт) и "Technical section". В последнем можно найти как сам паттерн, так и его устаревшие характеристики (сколько последовательностей семейства им не находились и сколько лишних находились на момент создания описания — но с тех пор Swiss-Prot сильно вырос). Чтобы получить актуальные характеристики, пройдите по гиперссылке, начинающейся с "PS", в разделе "Technical section".
Второй способ. Воспользуйтесь командой fuzzpro пакета EMBOSS. Чтобы ограничить поиск, скажем протеобактериями, можно (на kodomo) указать в качестве последовательностей для поиска "sw-org:proteobacteria". Чтобы каждый раз не выписывать длинный паттерн в ответ на вопрос или в командной строке, можно поместить его в файл (без переносов строки!) и вызывать в командную строку следующим образом:
fuzzpro -pattern "`cat mypattern.txt`"(здесь "mypattern.txt" имя файла, двойные кавычки защищают возможные в паттерне пробелы и скобки, а обратные кавычки означают, что в это место должен быть вставлен результат выполнения команды; в данном случае это команда cat, выводящая на stdout содержимое файла). Список находок в простой форме можно получить из выходного файла командой grep.
Как работать с GeneDoc, см. здесь (обратите внимание на п.11 в нашем случае тоже надо создать группу, но включить в неё последовательности из подсемейства). Рекомендуется покрасить исходный паттерн во всех последовательностях (см. пункт 4); если вдруг паттерн не выровнялся, то поправьте выравнивание вручную.
Чтобы подровнять к готовому выравниванию ещё одну последовательность, можно использовать программу mafft-profile:
mafft-profile alignment.fasta sequence_add.fasta > alignment2.fastaВпрочем, можно и руками в GeneDoc.
Другой (и предпочтительный) вариант писать сценарии ("скрипты") на вашем любимом языке (например, Perl или Python).