Практикум 7. Сигналы и мотивы 2

Подготовка данных.

Для работы был выбран штамм 168 бактерии Bacillus Subtilis. Для нее была скачена сборка и файл с аннотацией. C помощью сервиса Operon-mapper был получен список оперонов.

Далее был использован ноутбук Сергея Бушуева

. Были отобраны 50 оперонов, связаных с генами 'домашнего хозяйства'. В итоге были получены следующие файлы:

  • train_seqs.fa содержащий последовательности тренировочного набора
  • test_seqs.fa содержащий последовательности тестового набора
  • neg_contr_seqs.faсодержащий последовательности негативного контроля
  • Запуск MEME.

    Был проведен локальный запуск MEME:

    meme train_seqs.fa -dna -minw 5 -maxw 50 -nmotifs 3

    Было найдено 3 мотива:

    Находка E-value
    GGKSMKKTTTTTVTTTKSNAWAAADGDDNA 4.0e-011
    AAAAGGAGG 9.8e-005
    AYWDMMGNHCTCDKCCHTTWKTSKRDRRB 1.8e-004

    Текстовая выдача MEME.

    Был взят первый мотив, потому что он имеет лучшее значение E-value.

    Рис.1. LOGO 1-ого мотива.

    Рис.2. LOGO 2-ого мотива.

    Рис.3. LOGO 3-ого мотива.

    Запуск FIMO.

    Для поиска первого мотива в положительном и отрицательном контролях были запущены следующие команды:

    fimo --norc -motif RCCBTTDTGCTAHAVTVCSCACCCYTTT -thresh 0.001 ./meme_out/meme.txt test_seqs.fa

    fimo --norc -motif RCCBTTDTGCTAHAVTVCSCACCCYTTT -thresh 0.001 ./meme_out/meme.txt neg_contr_seqs.fa

    В итоге было получено 20 находок в 15 последовательностях из 50 в положительном контроле и 4 находки в 3 последовательностях из 50 в негативном контроле. Малое количество находок в негативном контроле - это хорошо.