Сигналы и мотивы 2. Поиск сигнала посадки σ-субъединицы РНК-полимеразы

Выбор бактерии и подготовка данных.

Для выполнения задания был выбран геном бактерии Bacillus Subtilis. С помощью веб-сервиса Operon-mapper были получены координаты оперонов бактерии. Промотором было решено считать 100 нуклеотидов перед опероном. Далее я написал написал скрипт, который по ключевым словам в описании функции оперона находит 100 оперонов, содержащие гены домашнего хозяйства и записывает в файл 100 промоторных областей данных оперонов в файл материала обучения. Также скрипт записывает в файл тестовой выборки промоторные области всех оперонов (2307 последовательностей). В качестве негативного контроля были выбраны последовательности в 100 нуклеотидов после каждого промотора (2307 последовательностей).

Запуск MEME.

Для поиска мотивов был использован локальный meme на сервере kodomo. Программа была запущена следующей командой:

meme house_keeping_promoters.txt -dna -mod zoops -nmotifs 3 -minw 6 -maxw 50

Программа нашла три мотива, и постороила их Logo, представленные на рисунках 1, 2, 3. С текстовой выдачей meme можно ознакомиться по ссылке. Только первый и второй мотивы имеют p-value меньше 0.05, с ними я и буду работать. Как видно из рисунка 4, первый мотив находится в 45-ти последовательностях, при этом 44-х из них в конце последовательности промотора (8-6 нуклеотидов от инициаторного кодона). Также по LOGO можно понять, что это высококонсеравтивный участок, а сама структура мотива aGGAGG очень сильно схожа с последовательностью Шайна — Дальгарно 1. P-value второго мотива равно 3.2e-008 и 10 из этих последовательностей находятся в -35 регионе, тем не менее визуально на данном Logo я не смог распознать эелементы -10 -35 консенсуса. С расположением мотивов в промоторной области можно ознакомиться по ссылке.

Кекс
Рисунок 1. Мотив №1
Кекс
Рисунок 2. Мотив №2
Кекс
Рисунок 3. Мотив №3

Запуск Fimo. Поиск сигналов в последовательностях тестовой выборки с помощью Fimo.

  1. Сначала был произведен поиск мотива aGGAGG в тестовой выборке и выборке негативного контроля. Для этого на вход локальной версии fimo были переданы сама последовательность мотива, файл тестовой выборки, файл негативного контроля и выдача meme:

    fimo --norc -motif AGGAGG -thresh 0.001 meme_out/meme.txt all_promoters.fasta
    fimo --norc -motif AGGAGG -thresh 0.001 meme_out/meme.txt negative_cont.fasta
    Результаты поиска занесены в таблицу 1. В итоге в 1025 последовательностях тестовой выборки был найден сигнал, т.е. почти в половине всех промоторов. И только 200 сигналов было найдено в выборке негативного контроля. Такое большое количество находок в тестовой выборке еще раз подтверждает, что первый мотив скорее всего является последовательностью Шайна-Дальгарно.

  2. Затем был произведен поиск второго мотива с помощью локального fimo:

    fimo --norc -motif BCTYYTTTYTTKTNW -thresh 0.001 meme_out/meme.txt all_promoters.fasta
    fimo --norc -motif BCTYYTTTYTTKTNW -thresh 0.001 meme_out/meme.txt negative_cont.fasta
    Результаты выдачи заненсены в таблицу 2. Так как в выборке негативного контроля было найдено слишком много сигналов - 545, было я решил еще раз запустить fimo но с меньшим значением p-value.

  3. Было решено понизить порог p-value до 0.0001:

    fimo --norc -motif BCTYYTTTYTTKTNW -thresh 0.0001 meme_out/meme.txt all_promoters.fasta
    fimo --norc -motif BCTYYTTTYTTKTNW -thresh 0.0001 meme_out/meme.txt negative_cont.fasta
    Результаты занесены в таблицу 3. При таких параметрах количество сигналов в выборке негативного контроля уменьшилось до 79, при этом было найдено 294 находок в тестовой выборке.

Тестовая выборка Выборка негативного контроля
Cигнал(+) 1025 200
Cигнал(-) 1282 2107
Таблица 1. Результат поиска сигналов из пункта 1.
Тестовая выборка Выборка негативного контроля
Cигнал(+) 1362 545
Cигнал(-) 945 1762
Таблица 2. Результат поиска сигналов из пункта 2.
Тестовая выборка Выборка негативного контроля
Cигнал(+) 294 79
Cигнал(-) 2013 2228
Таблица 3. Результат поиска сигналов из пункта 3.

Список литературы

  1. Jin-Der Wena, Syue-Ting Kuo, and Hsin-Hung David Chou. The diversity of Shine-Dalgarno sequences sheds light on the evolution of translation initiation. RNA BIOLOGY, 2021, VOL. 18, NO. 11, 1489–1500, https://doi.org/10.1080/15476286.2020.1861406