Занятие 4.

Срок выполнения заданий — утро 16 марта 2010 г.

  1. Построение дерева по нуклеотидным последовательностям
  2. Постройте филогенетическое дерево тех же бактерий, что в предыдущих заданиях, используя последовательности РНК малой субъединицы рибосомы (16S rRNA).

    Этапы работы

    1. Добудьте последовательности 16S рибосомальной РНК каждой из бактерий. Это можно сделать несколькими способами. Самый, по-видимому, простой способ: в записи EMBL, описывающей полный геном бактерии, найти соответствующую "особенность" (FT), она имеет ключ (FTkey) "rRNA" и в описании: /note="16S rRNA". Ссылку на запись EMBL, описывающую полный геном, проще всего найти в записи Swiss-Prot, описывающей какой-нибудь белок. Часто в геноме имеется несколько копий рРНК, надо взять любую одну.

      Другой способ — воспользоваться сервисом Silva. Вам нужна "SSU Database" (Small subunit, то есть малая субъединица); на запрос по имени организма выдаётся, как правило много находок (поскольку рРНК секвенировались многими группами), можно взять, например, наибольшую по длине. Разобраться, как добыть последовательность из этой базы данных, может оказаться непросто!

    2. Положите все последовательности в единый файл в fasta-формате, с названиями, отвечающими организмам, и выровняйте их программой muscle.
    3. Воспользуйтесь одной из программ пакета PHYLIP (на kodomo-count). С последовательностями ДНК работают программы fdnaml, fdnapars, fdnadist. Первые две выдают непосредственно дерево, fdnadist — матрицу расстояний, которую надо подать на вход одной из программ fneighbor, ffitch или fkitsch.

    Вставьте дерево в отчёт и проанализируйте его (совпадает ли с правильным? Что можно сказать о качестве реконструкции по сравнению с деревьями, построенным по белкам?)

  3. Построение и анализ дерева, содержащего паралоги
  4. Найдите в своих бактериях достоверные гомологи белка FTSH_ECOLI. Постройте дерево этих гомологов. Считая дерево реконструированным верно, укажите несколько пар ортологов и несколько пар паралогов.

    Указание. Два гомологичных белка будем называть ортологами, если они а) из разных организмов; б) разделение их общего предка на линии, ведущие к ним, произошло в результате видообразования. Два гомологичных белка из одного организма будем называть паралогами.

    Чтобы найти гомологов в заданных организмах, воспользуйтесь файлом proteo.fasta на диске P, там лежат записи банка UniProt, относящиеся к протеобактериям, перечисленным в таблице к заданию 1. Необходимо провести поиск программой BLASTP гомологов (с разумным порогом на E-value, скажем, 0,0001) и отобрать по мнемонике видов только те находки, которые относятся к отобранным вами бактериям. Другой способ — несколько раз воспользоваться BLAST'ом на сайте NCBI, устанавливая фильтры по организму, а в качестве банка — "nr" (поскольку Swiss-Prot может содержать не все гомологи). Если пользоваться этим способом, то придётся, чтобы не запутаться в том, какие белки из какого организма, придумать систему названий белков и переименовывать их сразу после скачивания.