Help to practice 10 (Prosite)

Материалы к заданию 10

Как найти мотивы Prosite, представленные в данной последовательности?

Сайт швейцарского института Expasy, составной частью которого является ProSite, имеет несколько зеркал: корейское (http://kr.expasy.org/), китайское (http://cn.expasy.org/), бразильское (http://br.expasy.org/), канадское (http://ca.expasy.org/) и австралийское (http://au.expasy.org/). На данный момент (19 апреля 2011 г.) сервис Prosite неправильно работает на бразильском зеркале, на остальных вроде бы всё в порядке.

В окошко "Scan a sequence against PROSITE patterns and profiles" внесите либо последовательность, либо её AC или ID в UniProt и нажмите "Scan". Дождитесь результата. На странице с результатами подробная информация о найденных паттернах и профилях доступна по гиперссылкам, привязанным к номерам доступа записей Prosite (начинаются с "PS", например PS00033).

На страничке с документацией паттерна (PDOC) вам нужны разделы "Description" (кратко переводите или пересказываете своими словами описание и вставляете в отчёт) и "Technical section". В последнем можно найти как сам паттерн, так и его устаревшие характеристики (сколько последовательностей семейства им не находились и сколько лишних находились на момент создания описания — но с тех пор Swiss-Prot сильно вырос). Чтобы получить актуальные характеристики, пройдите по гиперссылке, начинающейся с "PS", в разделе "Technical section".

Как найти последовательности белков из организмов данного таксона, соответствующих данному паттерну?

Первый способ.

таксономической базе EBI

Второй способ. Воспользуйтесь командой fuzzpro пакета EMBOSS. Чтобы ограничить поиск, скажем протеобактериями, можно (на kodomo) указать в качестве последовательностей для поиска "sw-org:proteobacteria". Чтобы каждый раз не выписывать длинный паттерн в ответ на вопрос или в командной строке, можно поместить его в файл (без переносов строки!) и вызывать в командную строку следующим образом:

  fuzzpro -pattern "`cat mypattern.txt`"

cat

stdout

grep

Как построить выравнивание?

занятию 9

Как работать с GeneDoc, см. здесь (обратите внимание на п.11 — в нашем случае тоже надо создать группу, но включить в неё последовательности из подсемейства). Рекомендуется покрасить исходный паттерн во всех последовательностях (см. пункт 4); если вдруг паттерн не выровнялся, то поправьте выравнивание вручную.

Чтобы подровнять к готовому выравниванию ещё одну последовательность, можно использовать программу mafft-profile:

  mafft-profile alignment.fasta sequence_add.fasta > alignment2.fasta

Как сравнивать списки находок?

Другой (и предпочтительный) вариант — писать сценарии ("скрипты") на вашем любимом языке (например, Perl или Python).