Сигналы и мотивы, часть 2

|На главную|

|Обо мне|

|Семестры|

|Заметки|

|Ссылки|

Подготовка данных

Для решения данной задачи был использован геном бактерии Bacillus subtilis штамм DSM 10. При помощи онлайн-сервиса Operon-mapper были получены координаты оперонов этой бактерии. В качестве промотора были выбраны 100 нуклеотидных последовательностей расположенные перед оперонами. Был использован скрипт, написанный Петром Милейко, который на основе ключевых слов в описании оперона находит гены домашнего хозяйства и сохраняет 100 областей промоторов оперонов с этими генами в файл материала обучения. Также скрипт сохраняет в отдельный файл тестовой выборки 2286 промоторных последовательностей всех оперонов. Для негативного контроля были выбраны 2286 нуклеотидных последовательностей в 100 нуклеотидов расположенных после каждого промотора.

MEME

Для запуска использовался локальный MEME:
   meme house_keeping_promoters.txt -dna -mod zoops -nmotifs 3 -minw 6 -maxw 50
  

Выход команды

В результате работы этой команды были получены три мотива, logo которых представлены ниже:

Рис. 1: Logo мотива RRAGGRGR, E-value: 2.0e-014
Рис. 2: Logo мотива MNTTTTTNDYMWTTKTTYTWWMDAWHC, E-value: 1.0e-002
Рис. 3: Logo мотива TSCHTTYC, E-value: 8.0e+000

Только первый и второй мотивы имеют p-value меньше 0.05, поэтому дальнейшая работа проводилась с ними.

FIMO

В начале, в положительном и отрицательном контролях, производился поиск первого мотива:
   fimo --norc -motif RRAGGRGR -thresh 0.001 meme_out/meme.txt all_promoters.fasta
   fimo --norc -motif RRAGGRGR -thresh 0.001 meme_out/meme.txt negative_cont.fasta
  
В результате в 1350 последовательностях тестовой выборки был обнаружен сигнал, то есть более чем в половине всех промоторов. И лишь 318 сигналов было найдено в выборке негативного контроля.

Так же в мотиве RRAGGRGR по его logo можно углядеть AGGagg (последовательность, схожая с последовательностью Шайна — Дальгарно), так что ради интереса был произведён поиск по этой последовательности:
  fimo --norc -motif AGGAGG -thresh 0.001 meme_out/meme.txt all_promoters.fasta
  fimo --norc -motif AGGAGG -thresh 0.001 meme_out/meme.txt negative_cont.fasta
  
И в итоге было найдено 0 таких сигналов в обоих случаях.

Далее производился поиск второго мотива:
   fimo --norc -motif MNTTTTTNDYMWTTKTTYTWWMDAWHC -thresh 0.001 meme_out/meme.txt all_promoters.fasta
   fimo --norc -motif MNTTTTTNDYMWTTKTTYTWWMDAWHC -thresh 0.001 meme_out/meme.txt negative_cont.fasta
  
В результате в 1084 последовательностях тестовой выборки был обнаружен сигнал, то есть почти в половине всех промоторов. Однако 455 сигналов было найдено в выборке негативного контроля, что многовато.

Из-за этого был произведён поиск с меньшим порогом:
   fimo --norc -motif MNTTTTTNDYMWTTKTTYTWWMDAWHC -thresh 0.0001 meme_out/meme.txt all_promoters.fasta
   fimo --norc -motif MNTTTTTNDYMWTTKTTYTWWMDAWHC -thresh 0.0001 meme_out/meme.txt negative_cont.fasta
  
В этот раз в тестовой выборке было найдено 206 сигналов, а в негативном контроле 70 сигналов.

© Belov Leonid, 2013