В данном практикуме будет произведен поиск консенсусной последовательности Шайн-Дальгарно (SD) в геноме археи Methanosarcina vacuolata. Последовательность SD это консервативный участок ДНК, расположенный примерно в 10 нуклеотидах перед каждым страрт-кодоном, с которым комплементарно связывает 16S-рРНК. Для поиска разобъем участки ДНК на следующие три группы: обучающая выборка, положительный контроль, отрицательный контроль. В качестве обучающей выборке возьмем участки последовательности длиной 25 нуклеотидов перед страрт-кодонами консервативных генов. Консервативными будет считать гены, учавствующие в репликации, трансляции, репарации и транскрипции. В положительный контроль поместим участки перед старт-кодоном всех остальных генов. В отрицательный контроль добавим просто случаные участки из генома длиной 25 нуклеотидов. Данная процедура была выполнена в гугл-колабе. Последовательность ДНК и её аннотация были взяты из базы данных ENA (CP009520.1).
Из литературных данных известно, что для E.coli SD представляет из себя AGGAGG, поэтому запустим MEME для поиска одного мотива длиной от 5 до 10 нуклеотидов в тренировочной выборке:
meme train.fasta -dna -nmotifs 1 -minw 5 -maxw 10
Выдачу программы MEME в формате html можно посмотреть здесь. На Рис. 1-2 представлены лого-диаграммы для найденного мотива на прямой и обратной цепи.
Находка статичстически значимая (E-value = 3.5e-010). Паттерн найденного мотива - AGGWGRWWW, а консенсусная последовательность - AGGAGGATA. Таким образом, первые 6 букв консенсуса в точности соответствуют последовательности SD у E. coli.
Напомню, что для контроля обучения мы создали положительный контроль, состоящий из 3538 участков генов перед страрт-кодоном, и отрицательный контроль - последовательности ДНК археи из случайного места (тоже 3538 штук). Будем искать только значимые находки (E-value < 0.001):
fimo --oc fimo_plus -thresh 0.001 meme_out/meme.txt plus.fasta
fimo --oc fimo_neg -thresh 0.001 meme_out/meme.txt negative.fasta
В положительном контроле 600 находок (ссылка), а в отрицательном всего 155 находок (ссылка). Таким образом, в положительном контроле значимых находок в 4 раза больше, чем в отрицательном, а, значит, нам удалось найти консенсусную последовательность SD.