Занятие 4.

Срок выполнения заданий — утро 12 марта 2013 г.

Деревья в обоих заданиях следует строить программой MEGA, любым из методов Neighbor-Joining, Minimum evolution, Maximum likelihood. Указывайте в отчётах, какой метод был использован.

  1. Построение дерева по нуклеотидным последовательностям
  2. Постройте филогенетическое дерево тех же бактерий, что в предыдущих заданиях, используя последовательности РНК малой субъединицы рибосомы (16S rRNA).

    В отчёте приведите:

    Этапы работы

    1. Добудьте последовательности 16S рибосомальной РНК каждой из бактерий. Это можно сделать несколькими способами. Самый, по-видимому, простой способ: найти запись EMBL, описывающую полный геном бактерии, а в ней — соответствующую "особенность" (FT), она имеет ключ (FTkey) "rRNA" и в описании, как правило: /note="16S rRNA" (иногда может быть упоминание 16S или малой рибосомной субъединицы в другой форме). Ссылку на запись EMBL, описывающую полный геном, проще всего найти в записи Swiss-Prot, описывающей какой-нибудь белок той же бактерии. Часто в геноме имеется несколько копий рРНК, надо взять любую одну.

      Вырезать нужный участок из записи EMBL с AC (к примеру) X00000 можно командой
      seqret embl:x00000 -sask
      Обращайте внимание на то, чтобы правильно ответить на все вопросы программы seqret!

    2. Положите все последовательности в единый файл в fasta-формате, отредактируйте их названия, чтобы они отвечали организмам, и выровняйте.
       
    3. Файл с выравниванием импортируйте в программу MEGA (указав Analyze при импорте) и выберите один из методов "верхней тройки" в меню "Phylogeny".
       
    Замечание. В записи EMBL, описывающей полный геном одной из бактерий, рРНК не аннотированы. Если эта бактерия оказалась в вашем списке, можно поступить двумя способами:
    Первый вариант: исключить эту бактерию из списка; в этом случае необходимо привести "правильное" (полученное из образца) дерево для нового сокращённого списка, и такие же ограничения полученных ранее белковых деревьев.
    Второй вариант (предпочтительный): всё же найти 16S РНК в геноме этой бактерии. Для этой цели хорошо подходит программа blastn, которая, в частности, умеет быстро выравнивать две последовательности (в данном случае полный геном данной бактерии и 16S РНК какой-либо близкородственной бактерии). Запустите blastn -help, чтобы получить подсказку, и обратите внимание на параметры -query и -subject; правильно будет также указать -task blastn.
     

  3. Построение и анализ дерева, содержащего паралоги
  4. Найдите в своих бактериях достоверные гомологи белка CLPX_BACSU. Постройте дерево этих гомологов. Считая дерево реконструированным верно, укажите несколько пар ортологов и несколько пар паралогов.

    Указание. Два гомологичных белка будем называть ортологами, если они а) из разных организмов; б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования. Два гомологичных белка из одного организма будем называть паралогами.

    Чтобы найти гомологов в заданных организмах, воспользуйтесь файлом proteo.fasta на диске P, там лежат записи банка UNIPROT, относящиеся к бактериям, перечисленным в таблице к заданию 1. Необходимо провести поиск программой blastp гомологов (с разумным порогом на E-value, скажем, 0,001) и отобрать по мнемонике видов только те находки, которые относятся к отобранным вами бактериям. Другой способ — несколько раз воспользоваться BLAST'ом на сайте NCBI, устанавливая фильтр по организму, а в качестве банка — "nr" (поскольку Swiss-Prot может содержать не все гомологи). Если пользоваться этим способом, то придётся, чтобы не запутаться в том, какие белки из какого организма, придумать систему названий белков и переименовывать их сразу после скачивания.