Практикум 7. Сигналы и мотивы 2

Подготовка данных

Для поиска оперонов в геноме я выбрала штамм OT19 бактерии Croceicoccus marinus. Для поиска оперонов использовался Operon-mapper, на вход которому был подан fasta file c геномом выбранной бактерии. На выходе был получен файл со списком всех найденных оперонов.

Для дальнейшей подготовки данных был использован скрипт Муравьёва Георгия. Промотором было решено считать 100 нуклеотидов перед опероном. Получили на выход:

MEME

После выполнения команды

meme housekeeping.fasta -dna -mod zoops -nmotifs 3 -minw 6 -maxw 50 -maxsites 50

был получен файл, в котором находятся 3 мотива:

  1. CGSSRCHWKKAGAGDCCAVBCSRTWYBWGAARRMTDSSTWVMRAVGRTBD E-value=8.3e-007
  2. KGCSGTTCTTCTWC E-value=2.7e-002
  3. AVAATCCSAGTADSGTCCTBCCAT E-value=6.7e-001

Первые два мотива проходят порог значимости, равный 0.05 (соответствующее E-value меньше 0.05). Для работы был выбран первый мотив из-за самого низкого E-value и GC-состава (в первом мотиве 20% GC, во втором - 43%)

Рис 1. LOGO первого мотива
Рис 2. LOGO второго мотива
Рис 3. LOGO третьего мотива

Поиск сигнала с помощью FIMO

Запуск FIMO осуществлялся по следующим командам:

fimo --norc -motif CGSSRCHWKKAGAGDCCAVBCSRTWYBWGAARRMTDSSTWVMRAVGRTBD -thresh 0.001 ./meme_out/meme.txt promotors.fasta

fimo --norc -motif CGSSRCHWKKAGAGDCCAVBCSRTWYBWGAARRMTDSSTWVMRAVGRTBD -thresh 0.001 ./meme_out/meme.txt negative.fasta

В резьтате были получены promotors_fimo.tsv и negative_fimo.tsv соответственно. При пороге в 0.001 получилось 202 находки в промоторах и 7 находок в негативном контроле.