Материалы к заданию 11

  1. Как найти мотивы Prosite, представленные в данной последовательности?
  2. Зайдите на страницу Prosite.

    Сайт Expasy, составной частью которого является Prosite, имеет несколько зеркал: корейское (http://kr.expasy.org), китайское (http://cn.expasy.org), бразильское (http://br.expasy.org), канадское (http://ca.expasy.org) и австралийское http://au.expasy.org). На данный момент (24 апреля 2008 г.) сервис Prosite работает на всех зеркалах (см. ответ, пришедший на моё письмо в Prosite), но всякое может быть...

    В окошко "Scan a sequence against PROSITE patterns and profiles" внесите либо последовательность, либо её AC или ID в UniProt и нажмите "Scan". Дождитесь результата. На странице с результатами подробная информация о найденных паттернах и профилях доступна по гиперссылкам, привязанным к номерам доступа записей Prosite (начинаются с "PS", например PS00033).

    На страничке с документацией паттерна вам нужны разделы Description (кратко переводите или пересказываете своими словами описание и вставляете в протокол) и Technical section. В последнем можно найти как сам паттерн, так и его характеристики (сколько последовательностей семейства им не находятся и сколько лишних находятся).

  3. Как найти последовательности белков из организмов данного таксона, соответствующих данному паттерну?
  4. Первый способ. Со страницы Prosite пойдите по гиперссылке "ScanProsite". В правой колонке (Motif(s) to scan for) в окошко внесите либо сам паттерн, либо его идентификатор в Prosite. Ниже в подразделе Filter(s): внесите в окошко "On taxonomy" название таксона (без опечаток! Правильно ли вы пишете название таксона, можно проверить, например, в таксономической базе EBI) и нажмите "START THE SCAN" (в левом нижнем углу страницы).

    Второй способ. Воспользуйтесь командой fuzzpro пакета EMBOSS. Чтобы ограничить поиск, скажем протеобактериями, можно указать в качестве последовательностей для поиска "sw-org:proteobacteria". Чтобы каждый раз не выписывать длинный паттерн в ответ на вопрос или в командной строке, можно поместить его в файл (без переносов строки!) и вызывать в командную строку следующим образом:

      fuzzpro -pattern "`cat mypattern.txt`"
    (здесь "mypattern.txt" — имя файла, двойные кавычки защищают возможные в паттерне пробелы и скобки, а обратные кавычки означают, что в это место должен быть вставлен результат выполнения команды; в данном случае это команда cat, выводящая на stdout содержимое файла). Список находок в простой форме можно получить из выходного файла командой grep.

  5. Как построить выравнивание?
  6. На kodomo-count установлены три программы выравнивания: emma, muscle и mafft. Для выравнивания небольшого числа последовательностей рекомендуется вариант mafft, вызываемый командой einsi:
      einsi sequences.fasta > alignment.fasta
    для быстрого выравнивания большого количества последовательностей — muscle. Предварительно, разумеется, надо создать файл с последовательностями в fasta-формате.

    Как работать с GeneDoc, см. здесь (обратите внимание на п.11 — в нашем случае тоже надо создать группу, но включить в неё последовательности из подсемейства). Рекомендуется покрасить исходный паттерн во всех последовательностях (см. пункт 4); если вдруг паттерн не выровнялся, то поправьте выравнивание вручную.

    Чтобы подровнять к готовому выравниванию ещё одну последовательность, можно использовать программу mafft-profile:

      mafft-profile alignment.fasta sequence_add.fasta > alignment2.fasta
    Впрочем, можно и руками в GeneDoc.

  7. Как сравнивать списки находок?
  8. Один вариант — делать это средствами MS-Excel. В частности, может помочь функция "ВПР" ("VLOOKUP"), которая позволяет проверить присутствие данного значения в данном массиве.

    Другой (и предпочтительный) вариант — писать Perl-скрипты.

  9. Как строить профиль и искать в банке последовательности, соответсвующие профилю?
  10. Воспользуйтесь пакетом PFTOOLS, установленном на kodomo-count (программы pfw, pfmake, autoscale и pfsearch). Имеет смысл почитать manuals:
      man pfw
      man pfmake
      man pfsearch
    Вот краткая инструкция: