Указания к занятию 8

  • К упражнению 1
    • Все дельта-антигены происходят из вирусов рода "Deltavirus"; описывающие их записи банка Swiss-Prot имеют в описании слова "delta" и "antigen"; малые дельта-антигены в описании имеют ещё слово "small". В SRS можно создать запрос к банку Swiss-Prot, написав эти слова в соответствующих полях и соединив их соответствующими операторами, а затем сохранить найденные последовательности в fasta-формате (кнопка Save). Рекомендуем назвать файл с последовательностями "delta.fasta".
    • Чтобы выровнять несколько последовательностей, находящихся в файле "delta.fasta" программой muscle, надо соединиться с машиной kodomo, сделать активной рабочую директорию, а затем выполнить команду:
       muscle -in delta.fasta -out delta.afa
      
      (после -out должно стоять имя выходного файла, которое, конечно, может быть любым; желательно, однако, по возможности давать файлам с результатами "говорящие" имена, как в приведённом примере). Выходной файл (по умолчанию) имеет fasta-формат, но содержит, в отличие от входного, не просто набор последовательностей, а выравнивание.
    • Импорт fasta-файла в GeneDoc: File→Import→отметить "Fasta" →Import→выбрать файл→Done.
    • Настройка раскраски: Project→Configure→вкладка "Shade". Там можно выбрать: число уровней консервативности (2, 3 или 4), процент одинаковых (или сходных) остатков в колонке для каждого уровня, учитывать или не учитывать сходство остатков, цвет шрифта ("Fore") и фона ("Back") для каждого уровня и др.
    • Настроить ширину блоков можно во вкладке "Project" того же окошка "Configure" (см. "Seq Block Sizing" вверху окошка). "Screen Size", в частности, означает, что ширина блока будет меняться с изменением ширины окна в Windows.
    • Чтобы скопировать блоки в буфер как картинки, выполните Edit→Select Blocks for Copy, затем щелкните мышкой по блокам и выполните Edit→Copy Selected Blocks to MetaFile. Затем можно выложить содержимое буфера (<Ctrl+V>) например, в программу Paint.

  • К упражнению 2
  • Ваша задача — набрать несколько белков, чьи последовательности выравниваются (например, BLAST'ом) с последовательностью вашего белка так, что: 1) E-value сходства по данным выравниваниям — не более одной тысячной (тем самым эти белки являются достоверными гомологами); 2) выравнивания имеют процент идентичности не более 90 (то есть белки не слишком близки к вашему). Кроме того, желательно, чтобы найденные последовательности были не слишком близки и друг к другу тоже.

    Ваши белки имеют разное количество гомологов в Swiss-Prot, с разной степенью сходства. Предлагается действовать по следующей общей схеме:

    1. Запустите BLAST по всему Swiss-Prot, поставив порог на E-value, равный 0.001.
       
    2. Если число найденных гомологов невелико, берите все, следя только за тем, чтобы не попадались одинаковые белки из слишком родственных организмов (например, если вы взяли белок с идентификатором XXXX_SALTY, то уже не берите XXXX_SALEP — родовое название организма отражается первыми тремя буквами второй части идентификатора).

      Если же выдача большая, то можно поступить двояко: либо просмотреть выравнивания и выбрать несколько последовательностей различной удалённости (желательно, чтобы в выборке присутствовали последовательности с процентами идентичности от 40 до 80), либо запустить BLAST несколько раз, ограничивая выдачу различными таксонами бактерий, в которые не входит B.subtilis, и взять по одной-две находки из каждой выдачи. Возможно, большую часть этой работы вы уже сделали при выполнении прошлого задания. Для её завершения может помочь следующая информация.

      Классификация B.subtilis: Bacteria; Firmicutes; Bacilli; Bacillales; Bacillaceae.
      Царства клеточных организмов: Bacteria, Archaea и Eukariota.
      Наиболее богатые изученными видами отделы бактерий: Cyanobacteria, Firmicutes, Actinobacteria, Bacteroidetes, Spirochaetes и Proteobacteria.
      Классы отдела Firmicutes: Bacilli и Clostridia, порядки класса Bacilli: Bacillales и Lactobacillales
      Из родов порядка Bacillales в Swiss-Prot лучше всего представлены Bacillus, Geobacillus, Listeria, Staphylococcus.

    3. Создайте в рабочей директории файл со списком идентификаторов (можно и номеров доступа) отобранных белков, перед которыми стоит "sw:", например:
      sw:wecb_ecoli
      sw:wecb_salty
      sw:wecb_yerpe
      sw:mnaa_bacsu
      sw:rfbc_salbo  
      Желательно назвать файл "myproteins.list" — это так называемый "лист-файл", то есть файл со списком "адресов" последовательностей. Выполните (в своей рабочей директории на kodomo-count) команду:
       seqret @myproteins.list myproteins.fasta
      
      чтобы получить в файле myproteins.fasta последовательности в fasta-формате. Знак "@" указывает программе seqret, что входной файл надо рассматривать как лист-файл, а не как файл с последовательностями.

      Разумеется, вместо всего этого можно воспользоваться SRS, написав запрос по полю ID и разделив идентификаторы знаком "|" (то есть "или").

    Когда Вы получите файл в fasta-формате, получить выравнивание и импортировать его в GeneDoc можно аналогично предыдущему упражнению.

    В GeneDoc узнать номер остатка в конкретной последовательности можно, наведя курсор мыши на этот остаток: номер появится внизу окна GeneDoc, с правой стороны.

    Чтобы посмотреть (и, если надо, изменить) состав групп сходных остатков, зайдите в Project→Configure→Score tables.