Практикум 9

В рамках этого практикума я работала с сигналом посадки σ-субъединицы РНК-полимеразы в промоторах генов E. coli. У неё 7 разных видов σ-факторов, которые различаются по функциям, то есть связываются с промоторами разных генов.

  1. Составление материала для обучения и проверки
  2. Я решила составить паттерн фактора σ70, который считается основным, и отвечает за синтез белков домашнего хозяйства. Для сравнения я хотела также взять промоторы оперонов, синтез с которых происходит при участии σ28, он отвечает за синтез белков жгутика.

    Важно, что E. coli имеет оперонную организацию генома, и промотор гена надо искать не перед этим геном, а перед тем геном, который в промоторе первый. Для этого я проаннотировала опероны инструментом Operon-mapper, передав ему последовательность генома и аннотацию генов в формате gff. Я решила взять участок 50 нуклеотидов upstream от начала первого гена в каждом опероне. Для отрицательного контроля взяла симметрично первые 50 нуклеотидов гена.

    Для обучения и положительного контроля взяла гены домашнего хозяйства, которые я нашла, что использовались в исследованиях в качестве контрольных генов, а для σ28 нашла статью, где предсказывали, в синтезе каких белков он участвует, и взяла белки оттуда.

    В итоге отобрала следующие гены:

    
        Гены домашнего хозяйства (35 штук):
        gpmA, glyA, ffh, arcA, dnaB, frr, gapA, hcaT, rpoS, mdh,
        adk, rfbA, glk, rpoD, alkA, mdoG, recD, pfkB, fumC, pykA,
        pfkA, gyrB, icd, purA, tus, gyrA, rssA, fbaA, eno, pykF,
        idnT, cysG, pgi, recA, fbaB
    
        Гены, синтез с которых происходи при участии σ28 (20 штук):
        tar, flgM, flxA, motA, fliD, flgK, ycgR, fliC, fliL, modA,Э
        yhiL, ytfE, ycfO, fliAyjcS, yjeT, ymfD, trxC, dsbG, ansA
    
    

    После нашла соответствующие опероны; для первой группы нашлось 34 оперона, а для второй 16 оперонов (значит, что для ряда генов оказалось, что два или больше были в одном опероне). Эти 34 оперона разделила поровну, по одним буду обучать MEME, а по другим проверять паттерн.

    Получились такие fasta-файлы:

  3. Создание паттерна с помощью MEME
  4. Я передала в MEME suite первый из этих 4 файлов и оставила все параметры по умолчанию, кроме того, что указала, что нужно искать только в данной цепи.

    MEME нашёл три разных паттерна, из которых паттерн с наибольшим числом последовательностей, которые MEME использовал для его построения, и наименьшим e-value имеет длину 23 нуклеотида. Вообще σ-фактор взаимодействует с ДНК в двух местах, примерно 10 и 35 пн upstream от начала гена, поэтому длины порядка 25 нуклеотидов как раз можно было ожидать.

    MEME также строит LOGO и считает информационное содержание паттерна, оно получилось 22.6 битов.

    Рис. 1 LOGO полученного паттерна

  5. Поиск паттерна с помощью FIMO
  6. Я ограничила МЕМЕ одним находимым паттерном, и полученную выдачу, а также три файла с последовательностями для проверки подала в FIMO.

    Таблица 1 Количество находок, для которых e-value оказался меньше 0.01, максимальное среди позитивного контроля
    Группа Количество находок, e-value < 0.01
    Положительный контроль 15 / 17
    Отрицательный контроль 7 / 16
    Промоторы, синтез с которых происходит с помощью σ28 4 / 17

    Вывод:

    Как результат видим, что полученный паттерн, хотя и не идеально, но дифференцирует положительный и отрицательный контроль. Кроме того, заметим, что хороших (с e-value < 0.01) находок оказалось меньше для промоторов, с которыми взаимодействует не σ70, а σ28. Это согласуется с тем, что разные σ-факторы сиквенс-специфично связываются с разными промоторами.