Help to practice 11 (Prosite)

Материалы к заданию 11

Как найти мотивы Prosite, представленные в данной последовательности?

Сайт Expasy, составной частью которого является Prosite, имеет несколько зеркал: корейское (http://kr.expasy.org), китайское (http://cn.expasy.org), бразильское (http://br.expasy.org), канадское (http://ca.expasy.org) и австралийское http://au.expasy.org). На данный момент (24 апреля 2008 г.) сервис Prosite работает на всех зеркалах (см. ответ, пришедший на моё письмо в Prosite), но всякое может быть...

В окошко "Scan a sequence against PROSITE patterns and profiles" внесите либо последовательность, либо её AC или ID в UniProt и нажмите "Scan". Дождитесь результата. На странице с результатами подробная информация о найденных паттернах и профилях доступна по гиперссылкам, привязанным к номерам доступа записей Prosite (начинаются с "PS", например PS00033).

На страничке с документацией паттерна вам нужны разделы Description (кратко переводите или пересказываете своими словами описание и вставляете в протокол) и Technical section. В последнем можно найти как сам паттерн, так и его характеристики (сколько последовательностей семейства им не находятся и сколько лишних находятся).

Как найти последовательности белков из организмов данного таксона, соответствующих данному паттерну?

Первый способ.

таксономической базе EBI

Второй способ. Воспользуйтесь командой fuzzpro пакета EMBOSS. Чтобы ограничить поиск, скажем протеобактериями, можно указать в качестве последовательностей для поиска "sw-org:proteobacteria". Чтобы каждый раз не выписывать длинный паттерн в ответ на вопрос или в командной строке, можно поместить его в файл (без переносов строки!) и вызывать в командную строку следующим образом:

  fuzzpro -pattern "`cat mypattern.txt`"

grep

Как построить выравнивание?

  einsi sequences.fasta > alignment.fasta

Как работать с GeneDoc, см. здесь (обратите внимание на п.11 — в нашем случае тоже надо создать группу, но включить в неё последовательности из подсемейства). Рекомендуется покрасить исходный паттерн во всех последовательностях (см. пункт 4); если вдруг паттерн не выровнялся, то поправьте выравнивание вручную.

Чтобы подровнять к готовому выравниванию ещё одну последовательность, можно использовать программу mafft-profile:

  mafft-profile alignment.fasta sequence_add.fasta > alignment2.fasta

Как сравнивать списки находок?

Другой (и предпочтительный) вариант — писать Perl-скрипты.

Как строить профиль и искать в банке последовательности, соответсвующие профилю?

  man pfw
  man pfmake
  man pfsearch

Приготовьте входной файл в формате MSF (именно в этом формате сохраняет GeneDoc); пусть (например) файл называется xxxxxxx.msf. Последующие действия выполняются на kodomo-count.
Замените символы конца строки файла, созданного в Windows, на принятые в UNIX:
```
noreturn xxxxxxx.msf xxxxxxx.noreturn.msf
```
Рассчитайте веса последовательностей выборки:
```
pfw xxxxxxx.noreturn.msf  > xxxxxxx.weighted.msf
```

Создайте профиль:

pfmake xxxxxxx.weighted.msf /usr/share/pftools23/blosum45.cmp > xxxxxxx.prf

Проверьте профиль. Для этого откройте его редактором Far. На этом этапе возможна его ручная корректировка в известных вам функционально значимых позициях.
Нормируйте профиль. Полная процедура требует значительных затрат компьютерного времени. Поэтому можно ограничиться "лёгкой" нормировкой (относительно маленькой базы 'случайных' последовательностей), она занимает минуты:
```
autoscale -m xxxxxxx.prf  >  xxxxxxx.scaled.prf
```
Найдите, что изменилось в профиле! Редактировать вручную нормированный профиль уже нельзя — нормировка "собьётся".
Если есть желание, выполните нормировку относительно большой базы 'случайных' последовательностей (SwissProt, в котором перемешаны буквы во всех последовательностях) — так же, но опустив параметр -m. Нормировка по большой базе занимает несколько десятков минут.
Подготовьте файл с последовательностями для поиска:
```
seqret sw-org:bacteria bacteria.fasta
```
(все последовательности из бактерий). Следите за квотой — результирующий файл "весит" почти 80M! После окончания работы будет необходимо его удалить.
Поиск по профилю:
```
pfsearch -f xxxxxxx.scaled.prf bacteria.fasta  > xxxxxxx.pfsearch 
```
(параметр '-f' говорит, что файл с последовательностями имеет формат fasta). Поиск займёт около 10 минут.
Изучите результат. Находки в результирующем файле упорядочены по алфавиту названий белков; показатель качества (нормализованный вес выравнивания профиля с последовательностью) стоит в первой колонке. Дополнительные параметры программы pfsearch можно узнать так:
```
pfsearch -h
```
Важный параметр такой: "-C<число>" (например -С6.2). Это порог нормализованного веса, отделяющий находки. По умолчанию равен 8.5. Чтобы убедиться, насколько хорошо отделяет профиль правильные находки от неправильных, иногда интересно снизить этот порог, чтобы получить в выдаче и заведомо неправильные находки; обычно у неправильных находок нормализованный вес < 6.5
Выберите порог нормализованного веса, проанализировав результат поиска. Вам нужно понять, какие значения нормализованного веса дают белки подсемейства и какие — прочие белки (это можно делать средствами Excel и/или Perl). Полезно построить гистограмму значений нормализованного веса находок. Если профиль хороший, у такой гистограммы обычно наблюдается локальный минимум в районе правильного порога.
Сформулируйте результат, полученный с помощью профиля: "при таком-то пороге находятся столько-то последовательностей, принадлежащих подсемейству, столько-то не принадлежащих подсемейству и столько-то последовательностей подсемейства не находятся".