Указания к занятию 8

  • К упражнению 1
    • Чтобы получить последовательности дельта-антигенов из банка Swiss-Prot, воспользуйтесь SRS. Все дельта-антигены происходят из вирусов рода"Deltavirus" и имеют в описании слово "delta". Поэтому в SRS можно создать запрос к банку Swiss-Prot, написав эти слова в соответствующих полях, а затем сохранить найденные последовательности в fasta-формате (кнопка Save). Рекомендуем назвать файл с последовательностями "delta.fasta".
    • Чтобы выровнять несколько последовательностей, находящихся в файле "delta.fasta" программой muscle, надо соединиться с машиной kodomo-count, сделать активной рабочую директорию, а затем выполнить команду:
       muscle -in delta.fasta -out delta_aligned.fasta
      
      (после -out должно стоять имя выходного файла, которое, конечно, может быть любым; желательно, однако, по возможности давать файлам с результатами "говорящие" имена, как в приведённом примере). Выходной файл (по умолчанию) имеет fasta-формат, но содержит, в отличие от входного, не просто набор последовательностей, а выравнивание.

  • К упражнению 2
  • Ваша задача — набрать несколько белков, чьи последовательности выравниваются (например, BLAST'ом) с последовательностью Вашего белка так, что 1) E-value сходства по данным выравниваниям — не более одной тысячной (тем самым эти белки являются достоверными гомологами); 2) выравнивания имеют процент идентичности не более 90 (то есть белки не слишком близки к вашему). Кроме того, желательно, чтобы последовательности были не слишком близки и друг к другу тоже.

    Ваши белки имеют разное количество гомологов в Swiss-Prot, с разной степенью сходства. Предлагается действовать по следующей общей схеме:

    1. Запустите BLAST по Swiss-Prot, ограничив выдачу таксоном Bacteria и поставив порог на E-value, равный 0.001.
       
    2. Если число найденных гомологов невелико, берите все, следя только за тем, чтобы не попадались одинаковые белки из слишком родственных организмов (например, если вы взяли белок с идентификатором XXXX_SALTY, то уже не берите XXXX_SALEP — родовое название организма отражается первыми тремя буквами второй части идентификатора).

      Если же выдача большая, то можно поступить двояко: либо просмотреть выравнивания и выбрать несколько последовательностей различной удалённости (желательно, чтобы в выборке присутствовали последовательности с процентами идентичности от 40 до 80), либо запустить BLAST несколько раз, ограничивая выдачу различными таксонами бактерий, в которые не входит E.coli, и взять по одной-две находки из каждой выдачи. При этом может помочь следующая информация.

      Наиболее богатые изученными видами отделы бактерий: Cyanobacteria, Firmicutes, Actinobacteria, Bacteroidetes, Spirochaetes и Proteobacteria, к которым относится E.coli.
      Классы отдела Proteobacteria: Alphaproteobacteria, Betaproteobacteria, Gammaproteobacteria (к которым относится E.coli), Deltaproteobacteria и Epsilonproteobacteria.
      Наиболее богатые изученными видами порядки гаммапротеобактерий: Pseudomonadales, Alteromonadales, Pasteurellales, Vibrionales и Enterobacteriales, к которым относится E.coli.

    3. Создайте в рабочей директории файл со списком идентификаторов (можно и номеров доступа) отобранных белков, перед которыми стоит "sw:", например:
      sw:wecb_ecoli
      sw:wecb_salty
      sw:wecb_yerpe
      sw:mnaa_bacsu
      sw:rfbc_salbo  
      Желательно назвать файл "myproteins.list" — это так называемый "лист-файл", то есть файл со списком "адресов" последовательностей. Выполните (в своей рабочей директории на kodomo-count) команду:
       seqret @myproteins.list myproteins.fasta
      
      чтобы получить в файле myproteins.fasta последовательности в fasta-формате. Знак "@" указывает программе seqret, что входной файл надо рассматривать как лист-файл, а не как файл с последовательностями.

      Разумеется, вместо всего этого можно воспользоваться SRS, написав запрос по полю ID и разделив идентификаторы знаком "|" (то есть "или").

    Когда Вы получите файл в fasta-формате, получить выравнивание и импортировать его в GeneDoc можно аналогично предыдущему упражнению.