Varyaaas
  • Главная
  • Обо мне
  • Семестры
      1 семестр (I курс) 2 семестр (I курс) 3 семестр (II курс) 4 семестр (II курс)
  • ФББ МГУ

Сигналы и мотивы 2

Подготовка данных

Для выполнения практикума был выбран геном Salmonella enterica. Для этого была использована референсная сборка генома GCF_000006955.2. На основе файлов с последовательностью (*.fasta) и аннотацией (*.gff) с использованием сервиса Operon-mapper был получен список оперонов. Промотором считается область 100 нуклеотидов перед началом оперона. С помощью скрипта Муравьева Георгия были получены 3 файла: для обучения (гены домашнего хозяйства), тестирования и негативного контроля.

Рис. 1 LOGO-1. E-value = 1.1e+000.

Запуск MEME

Далее был использован локальный MEME:

meme housekeeping.fasta -dna -nmotifs 3 -minw 6

Все три мотива достаточно ненадежные (с высоким e-value). Первый мотив с наименьшим e-value - просто GC-богатый участок (вряд ли эта находка несёт какой-либо смысл). Далее я решила работать с мотивом 3, так как он имеет какой-то смысл, хотя e-value высокий.

Рис. 2 LOGO-2. E-value = 3.4e+001.
Рис. 3 LOGO-3. E-value = 1.7e+001.

Поиск сигнала в материале для тестирования с помощью FIMO

Для поиска второго найденного мотива в положительном и отрицательном контроле были запущены следующие команды:

fimo --norc -motif AMAAAAAYGRMGAYTDSYAMHATWCMSAVWRCYRCSNCGNSCNANTCK -thresh 0.001 ./files/meme_out/meme.txt ./files/promotors.fasta fimo --norc -motif AMAAAAAYGRMGAYTDSYAMHATWCMSAVWRCYRCSNCGNSCNANTCK -thresh 0.001 ./files/meme_out/meme.txt ./files/negative.fasta

Получены следующие таблицы: positive и negative. Этот мотив был найден в 330 промоторах среди всех и в 21 находке в негативном контроле.