Практикум 6

Задание №1. Описание сигнала, закодированного в геноме

Ориджин репликации ДНК бактериофага f1 служит сигналом не только инициации синтеза вирусной цепи, но и её для терминации. Синтез вирусной (+) цепи начинается и заканчивается в специфическом сайте, который распознается и блокируется белком вирусного гена 2 (назовем его g2p). Этот функциональный ориджин может быть разделен на два домена:

1. "core region" длиной около 40 нуклеотидов, которая необходима для синтеза + цепи и содержит три различных, частично перекрывающихся сигналов:

  • последовательность узнавания белка d2p , который необходим для инициации и терминации синтеза цепи (+)
  • сигнал терминации, который распространяется еще на 8 нуклеотидов ближе к 5'-концу от сайта угнавания g2p
  • сигнал инициации, который располагается на 10 нуклеотидов ближе к 3'-концу от g2p.
  • 2. "a secondary region" длиной около 100 нуклеотидов, необходимая только для инициации синтеза + цепи. Разрушение этой области не приводит к полной остановки функционирования f1, но значительно снижает его работу. Интересно, что вторичная область может быть прервана большими вставками чужеродной ДНК без сузщественного влияния на репликации. В нижеприведенной статье авторы пытаются найти объяснение этому факту.

    Источники

    The functional origin of bacteriophage f1 DNA replication. Its signals and domains G P Dotto, K Horiuchi, N D Zinder // J Mol // 1984 Feb 5 172(4):507-21 // doi: 10.1016/s0022-2836(84)80020-0

    Задание №2.

    Для выполнения этого задания я выбрала одну из предложенных последовательностей - последовательность Козак. Она представляет собой окрестность ATG кодона - старта транскрипции в человечском геноме. В ходе задания я адаптировала скрипт Георгия Муравьева и выражаю ему огромную благодарность. На вход скрипту дается последовательность генов человека human-genes.tsv. Скрипт выдал следующие fasta-файлы:

    1. последовательности для обучения - 100 штук

    2. последовательность для тестирования - 100 штук

    3. последовательность для негативного контроля - 100 штук

    Позиционная весовая матрица была построена на материалах для обучения и приведена ниже:

    photo

    Рис.1. Позиционная весовая матрица.

    На основе вышеприведенной таблицы я посчитала веса последовательностей, затем составила гистограмму.

    photo

    Рис.2. Гистограмма распределения весов последовательностей

    На Рис.2 можно заметить, что гистограмма отрицательного контроля сдвинута влево по сравнению с остальными гистограммами. Я посчитала правильным выбрать в качестве верных такие последовательности, вес которых выше 37, исходя из вышеприведенной гистограммы. То есть пороговый вес - 37. Далее я построила матрицу результатов проверки.

    photo

    Рис.3. Матрица результатов проверки.

    Затем я получила матрицу информационного содержания

    photo

    Рис.3. Матрица информационного содержания.

    С использованием сервиса WebLOGO 3 я построила LOGO:

    photo

    Рис.4. LOGO для последовательности Козак.

    Подсчет числа сайтов GAATTC в полном геноме одного штамма E.coli

    Для выполнения этого задания я выбрала штамм Escherichia coli O83:H1. В геноме получен 656 сайт последовательности GAATTC. Ожидаемое число этих сайтов составило 1162. Для оценки различий использовалось биномиальное распределение. Различие оказалось статичстически значимым, тк p-value = 4.8e-59