Практическая работа 8

Подготовка последовательностей

В данном практикуме будет произведен поиск консенсусной последовательности Шайн-Дальгарно (SD) в геноме археи Methanosarcina vacuolata. Последовательность SD это консервативный участок ДНК, расположенный примерно в 10 нуклеотидах перед каждым страрт-кодоном, с которым комплементарно связывает 16S-рРНК. Для поиска разобъем участки ДНК на следующие три группы: обучающая выборка, положительный контроль, отрицательный контроль. В качестве обучающей выборке возьмем участки последовательности длиной 25 нуклеотидов перед страрт-кодонами консервативных генов. Консервативными будет считать гены, учавствующие в репликации, трансляции, репарации и транскрипции. В положительный контроль поместим участки перед старт-кодоном всех остальных генов. В отрицательный контроль добавим просто случаные участки из генома длиной 25 нуклеотидов. Данная процедура была выполнена в гугл-колабе. Последовательность ДНК и её аннотация были взяты из базы данных ENA (CP009520.1).

Поиск мотива с помощью MEME

Из литературных данных известно, что для E.coli SD представляет из себя AGGAGG, поэтому запустим MEME для поиска одного мотива длиной от 5 до 10 нуклеотидов в тренировочной выборке:

meme train.fasta -dna -nmotifs 1 -minw 5 -maxw 10

Выдачу программы MEME в формате html можно посмотреть здесь. На Рис. 1-2 представлены лого-диаграммы для найденного мотива на прямой и обратной цепи.

Рис. 1. Лого-диаграмма найденного мотива на прямой цепи
Рис. 2. Лого-диаграмма найденного мотива на обратной цепи

Находка статичстически значимая (E-value = 3.5e-010). Паттерн найденного мотива - AGGWGRWWW, а консенсусная последовательность - AGGAGGATA. Таким образом, первые 6 букв консенсуса в точности соответствуют последовательности SD у E. coli.

Проверка обучение при помощи FIMO

Напомню, что для контроля обучения мы создали положительный контроль, состоящий из 3538 участков генов перед страрт-кодоном, и отрицательный контроль - последовательности ДНК археи из случайного места (тоже 3538 штук). Будем искать только значимые находки (E-value < 0.001):

fimo --oc fimo_plus -thresh 0.001 meme_out/meme.txt plus.fasta fimo --oc fimo_neg -thresh 0.001 meme_out/meme.txt negative.fasta

В положительном контроле 600 находок (ссылка), а в отрицательном всего 155 находок (ссылка). Таким образом, в положительном контроле значимых находок в 4 раза больше, чем в отрицательном, а, значит, нам удалось найти консенсусную последовательность SD.