Практикум 9
В рамках этого практикума я работала с сигналом посадки σ-субъединицы РНК-полимеразы в промоторах генов E. coli. У неё 7 разных видов σ-факторов, которые различаются по функциям, то есть связываются с промоторами разных генов.
- Составление материала для обучения и проверки
- Создание паттерна с помощью MEME
- Поиск паттерна с помощью FIMO
Я решила составить паттерн фактора σ70, который считается основным, и отвечает за синтез белков домашнего хозяйства. Для сравнения я хотела также взять промоторы оперонов, синтез с которых происходит при участии σ28, он отвечает за синтез белков жгутика.
Важно, что E. coli имеет оперонную организацию генома, и промотор гена надо искать не перед этим геном, а перед тем геном, который в промоторе первый. Для этого я проаннотировала опероны инструментом Operon-mapper, передав ему последовательность генома и аннотацию генов в формате gff. Я решила взять участок 50 нуклеотидов upstream от начала первого гена в каждом опероне. Для отрицательного контроля взяла симметрично первые 50 нуклеотидов гена.
Для обучения и положительного контроля взяла гены домашнего хозяйства, которые я нашла, что использовались в исследованиях в качестве контрольных генов, а для σ28 нашла статью, где предсказывали, в синтезе каких белков он участвует, и взяла белки оттуда.
В итоге отобрала следующие гены:
Гены домашнего хозяйства (35 штук): gpmA, glyA, ffh, arcA, dnaB, frr, gapA, hcaT, rpoS, mdh, adk, rfbA, glk, rpoD, alkA, mdoG, recD, pfkB, fumC, pykA, pfkA, gyrB, icd, purA, tus, gyrA, rssA, fbaA, eno, pykF, idnT, cysG, pgi, recA, fbaB Гены, синтез с которых происходи при участии σ28 (20 штук): tar, flgM, flxA, motA, fliD, flgK, ycgR, fliC, fliL, modA,Э yhiL, ytfE, ycfO, fliAyjcS, yjeT, ymfD, trxC, dsbG, ansA
После нашла соответствующие опероны; для первой группы нашлось 34 оперона, а для второй 16 оперонов (значит, что для ряда генов оказалось, что два или больше были в одном опероне). Эти 34 оперона разделила поровну, по одним буду обучать MEME, а по другим проверять паттерн.
Получились такие fasta-файлы:
Я передала в MEME suite первый из этих 4 файлов и оставила все параметры по умолчанию, кроме того, что указала, что нужно искать только в данной цепи.
MEME нашёл три разных паттерна, из которых паттерн с наибольшим числом последовательностей, которые MEME использовал для его построения, и наименьшим e-value имеет длину 23 нуклеотида. Вообще σ-фактор взаимодействует с ДНК в двух местах, примерно 10 и 35 пн upstream от начала гена, поэтому длины порядка 25 нуклеотидов как раз можно было ожидать.
MEME также строит LOGO и считает информационное содержание паттерна, оно получилось 22.6 битов.
Я ограничила МЕМЕ одним находимым паттерном, и полученную выдачу, а также три файла с последовательностями для проверки подала в FIMO.
Группа | Количество находок, e-value < 0.01 |
---|---|
Положительный контроль | 15 / 17 |
Отрицательный контроль | 7 / 16 |
Промоторы, синтез с которых происходит с помощью σ28 | 4 / 17 |
Вывод:
Как результат видим, что полученный паттерн, хотя и не идеально, но дифференцирует положительный и отрицательный контроль. Кроме того, заметим, что хороших (с e-value < 0.01) находок оказалось меньше для промоторов, с которыми взаимодействует не σ70, а σ28. Это согласуется с тем, что разные σ-факторы сиквенс-специфично связываются с разными промоторами.