Занятие 4.

Срок выполнения заданий — утро 6 марта 2012 г.

  1. Построение дерева по нуклеотидным последовательностям
  2. Постройте филогенетическое дерево тех же бактерий, что в предыдущих заданиях, используя последовательности РНК малой субъединицы рибосомы (16S rRNA).

    Этапы работы

    1. Добудьте последовательности 16S рибосомальной РНК каждой из бактерий. Это можно сделать несколькими способами. Самый, по-видимому, простой способ: в записи EMBL, описывающей полный геном бактерии, найти соответствующую "особенность" (FT), она имеет ключ (FTkey) "rRNA" и в описании, как правило: /note="16S rRNA" (иногда может быть упоминание 16S или малой рибосомной субъединицы в другой форме). Ссылку на запись EMBL, описывающую полный геном, проще всего найти в записи Swiss-Prot, описывающей какой-нибудь белок. Часто в геноме имеется несколько копий рРНК, надо взять любую одну.

      Вырезать нужный участок из записи EMBL можно командой seqret -sask. Не забудьте "обратить" (т.е. взять комплементарную) последовательность, если рРНК в записи находится на обратной цепи!
       

    2. Положите все последовательности в единый файл в fasta-формате, с названиями, отвечающими организмам, и выровняйте их программой muscle.
       
    3. Воспользуйтесь одной из программ пакета PHYLIP (на kodomo). С последовательностями ДНК работают программы fdnaml, fdnapars, fdnadist. Первые две выдают непосредственно дерево, fdnadist — матрицу расстояний, которую надо подать на вход одной из программ fneighbor, ffitch или fkitsch.

    В отчёте приведите сведения о результатах каждого этапа: каковы AC записей EMBL, описывающих полные геномы, каковы координаты рРНК в этих записях, какими программами вы пользовались.

    Вставьте в отчёт изображение полученного дерева и проанализируйте это дерево (совпадает ли с правильным? Что можно сказать о качестве реконструкции по сравнению с деревьями, построенным по белкам?)
     

  3. Построение и анализ дерева, содержащего паралоги
  4. Найдите в своих бактериях достоверные гомологи белка CLPX_BACSU. Постройте дерево этих гомологов. Считая дерево реконструированным верно, укажите несколько пар ортологов и несколько пар паралогов.

    Указание. Два гомологичных белка будем называть ортологами, если они а) из разных организмов; б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования. Два гомологичных белка из одного организма будем называть паралогами.

    Чтобы найти гомологов в заданных организмах, воспользуйтесь файлом proteo.fasta на диске P, там лежат записи банка UNIPROT, относящиеся к бактериям, перечисленным в таблице к заданию 1. Необходимо провести поиск программой BLASTP гомологов (с разумным порогом на E-value, скажем, 0,001) и отобрать по мнемонике видов только те находки, которые относятся к отобранным вами бактериям. Другой способ — несколько раз воспользоваться BLAST'ом на сайте NCBI, устанавливая фильтр по организму, а в качестве банка — "nr" (поскольку Swiss-Prot может содержать не все гомологи). Если пользоваться этим способом, то придётся, чтобы не запутаться в том, какие белки из какого организма, придумать систему названий белков и переименовывать их сразу после скачивания.