Материалы к заданию 10

  1. Как найти мотивы Prosite, представленные в данной последовательности?
  2. Зайдите на страницу ProSite.

    Сайт швейцарского института Expasy, составной частью которого является ProSite, имеет несколько зеркал: корейское (http://kr.expasy.org/), китайское (http://cn.expasy.org/), бразильское (http://br.expasy.org/), канадское (http://ca.expasy.org/) и австралийское (http://au.expasy.org/). На данный момент (19 апреля 2011 г.) сервис Prosite неправильно работает на бразильском зеркале, на остальных вроде бы всё в порядке.

    В окошко "Scan a sequence against PROSITE patterns and profiles" внесите либо последовательность, либо её AC или ID в UniProt и нажмите "Scan". Дождитесь результата. На странице с результатами подробная информация о найденных паттернах и профилях доступна по гиперссылкам, привязанным к номерам доступа записей Prosite (начинаются с "PS", например PS00033).

    На страничке с документацией паттерна (PDOC) вам нужны разделы "Description" (кратко переводите или пересказываете своими словами описание и вставляете в отчёт) и "Technical section". В последнем можно найти как сам паттерн, так и его устаревшие характеристики (сколько последовательностей семейства им не находились и сколько лишних находились на момент создания описания — но с тех пор Swiss-Prot сильно вырос). Чтобы получить актуальные характеристики, пройдите по гиперссылке, начинающейся с "PS", в разделе "Technical section".

  3. Как найти последовательности белков из организмов данного таксона, соответствующих данному паттерну?
  4. Первый способ. Со страницы Prosite пойдите по гиперссылке "ScanProsite". В правой колонке (Motif(s) to scan for) в окошко внесите либо сам паттерн, либо его идентификатор в Prosite. Ниже в подразделе Filter(s): внесите в окошко "On taxonomy" название таксона (без опечаток! Правильно ли вы пишете название таксона, можно проверить, например, в таксономической базе EBI) и нажмите "START THE SCAN" (в левом нижнем углу страницы). На странице с результатом обратите внимание на гиперссылки в самом низу (после последней находки).

    Второй способ. Воспользуйтесь командой fuzzpro пакета EMBOSS. Чтобы ограничить поиск, скажем протеобактериями, можно (на kodomo) указать в качестве последовательностей для поиска "sw-org:proteobacteria". Чтобы каждый раз не выписывать длинный паттерн в ответ на вопрос или в командной строке, можно поместить его в файл (без переносов строки!) и вызывать в командную строку следующим образом:

      fuzzpro -pattern "`cat mypattern.txt`"
    (здесь "mypattern.txt" — имя файла, двойные кавычки защищают возможные в паттерне пробелы и скобки, а обратные кавычки означают, что в это место должен быть вставлен результат выполнения команды; в данном случае это команда cat, выводящая на stdout содержимое файла). Список находок в простой форме можно получить из выходного файла командой grep.

  5. Как построить выравнивание?
  6. На kodomo установлены три программы выравнивания: muscle, mafft и edialign. Посмотрите подсказки к прошлогоднему занятию 9 и вспомните, как создать из ID белков файл в fasta-формате и как их выровнять программой muscle.

    Как работать с GeneDoc, см. здесь (обратите внимание на п.11 — в нашем случае тоже надо создать группу, но включить в неё последовательности из подсемейства). Рекомендуется покрасить исходный паттерн во всех последовательностях (см. пункт 4); если вдруг паттерн не выровнялся, то поправьте выравнивание вручную.

    Чтобы подровнять к готовому выравниванию ещё одну последовательность, можно использовать программу mafft-profile:

      mafft-profile alignment.fasta sequence_add.fasta > alignment2.fasta
    Впрочем, можно и руками в GeneDoc.

  7. Как сравнивать списки находок?
  8. Один вариант — делать это средствами MS-Excel. В частности, может помочь функция "ВПР" ("VLOOKUP"), которая позволяет проверить присутствие данного значения в данном массиве.

    Другой (и предпочтительный) вариант — писать сценарии ("скрипты") на вашем любимом языке (например, Perl или Python).