Нахождение мотива сигнала посадки сигма-субъединицы RNAP в промоторе с помощью программы MEME и проверка его работы с помощью FIMO
Выбор бактерии и подготовка данных
  • Taxon: Bifidobacterium lemurum
  • NCBI RefSeq assembly: GCF_014898175.1
  • Submitted GenBank assembly: GCA_014898175.1
  • Бифидобактерии - это грамположительные бактерии, которые обычно встречаются в желудочно-кишечном тракте человека и животных. Снижение присутсвия этих бактерий в ЖКТ человека может вызывать такие заболевания как дисбактериаз и синдроме раздражённого кишечника.

    Скаченная последовательность хромосомы в формате FASTA и GFF была подана в программу Operon Mapper и на выходе был получен список оперонов.

    Далее были взяты последовательности участков, предшествующих оперонам (которые мы считаем теоретическими промоторными областями). Последовательности промоторов оперонов получала скриптом (Муравьева Георгия).

    По результатом его работы были готовы 3 файла:
    Запуск MEME

    Программу MEME запускала локально на kodomo.

    meme housekeeping_pr9_sem4.fasta -dna -nmotifs 3 -minw 6 -maxw 50 -maxsites 50

    Где:

    • housekeeping_pr9_sem4.fasta - обучающая выборка
    • -dna - ДНК последовательность
    • -nmotifs 3 - количество мотивов для поиска
    • -minw 6 - минимальная длина мотива 6
    • -maxw 50 - максимальная длина 50
    • Выдачу результатов работы MEME можно найти по ссылке в формате txt и html

      МЕМЕ нашел три мотива

      lys25
      Рис. 1.Мотив CTWGCGGCBSBRSCKBCKGBTCTDMARGYTHGHCTWMKAGTTGYKBTYCC , E-value = 2.0e-019 , длина = 50 .
      asn81
      Рис. 2.Мотив AAGGARV, E-value = 3.9e-006, длина = 7 .
      asn81
      Рис. 3. Мотив DSGMSMNSRMGSNSMNSSHGBWCGMSNNCGYSRASGNCGSCVWSRMSGVS, E-value = 3.6e-008, длина = 50 .

      Для дальнейшей работы буду анализировать 3 мотив с наименьшим e-value.

      fimo --norc -motif DSGMSMNSRMGSNSMNSSHGBWCGMSNNCGYSRASGNCGSCVWSRMSGVS -thresh 0.001 meme.txt promotors_pr9_sem4.fasta

      Получен файл fimo.html

      fimo --norc -motif DSGMSMNSRMGSNSMNSSHGBWCGMSNNCGYSRASGNCGSCVWSRMSGVS -thresh 0.001 meme.txt negative_pr9_sem4.fasta

      Результат работы программы FIMO в выборке отрицательного контроля представлен в файле.

      Сравнительная таблица работы FIMO.
      БД с последовательностями всех оперонов БД для негативного контроля
      Количество последовательностей в БД 2373 250
      Количество появлений мотива с p-value<0.001 5477 1338
      P-value лучшей находки 2.92e-13 7.6e-12
      Q-value лучшей находки 1.52e-08 2.91e-08
      Количество появлений мотива с p-value<0.0001 1867 560

      P-value отражает вероятность появление мотива как случайную последовательность той же длины, что и мотив, которая соответствует этой позиции в последовательности с таким же или лучшим результатом.

      Значение q-value для появления мотива определяется как процент ложного обнаружения, если это событие считается значимым.