Практикум 6. Сигналы и мотивы, часть 1
В ходе этого практикума при помощи программы MEME был проведён поиск мотива сайта посадки рибосомы (последовательности Шайна-Дальгарно) для генов бактерии Clostridium botulinum.
Получение последовательностей для поиска мотива
Входные последовательности для поиска были получены из генома Clostridium botulinum (GenBank AC: CP028842.1). Для белок-кодирующих генов были взяты участки upstream в 30 нуклеотидов и старт-кодон; в выборку также были добавлены 7 последовательностей, обратно-комплементарных 7 генам 16S рРНК. Файл, содержащий входные последовательности, можно просмотреть по ссылке.
Поиск последовательности Шайна-Дальгарно
Для поиска была использована программа MEME на kodomo:
meme seq.fasta -dna -nmotifs 5 -minw 5 -maxw 10 -minsites 10
Аргумент -nmotifs задаёт количество мотивов, которое программа найдёт, после чего прекратит поиск; -minw и -maxw ограничивают возможную длину мотива (значения выбраны исходя из того, что консенсус последовательности Шайна-Дальгарно - GGAGG - имеет длину в 5 нуклеотидов); -minsites определяет минимальное число сайтов мотива, необходимое для того, чтобы мотив попал в выдачу. Благодаря тому, что для генов на обратной цепи исходно были взяты обратно-комплементарные последовательности, искать мотив на обратной цепи не требуется. Результат работы программы доступен здесь.
Первый мотив из выдачи напоминает последовательность Шайна-Дальгарно (подробнее о нём ниже); второй представляет собой стартовый кодон с коротким upstream участком; третий, четвёртый и пятый - это просто участки 16S рРНК, для которых по случайным причинам нашлись похожие паттерны в других последовательностях.
Можно видеть, что первый мотив был найден (причём с очень маленьким

Таблица 1 представляет собой PWM с псевдоотсчётами, построенную для найденного мотива на основе матрицы частот из выдачи MEME (ссылка на файл с рассчётом).

Наиболее информативная часть мотива имеет последовательность GGAGG, и в большинстве случаев он расположен в ~8 нуклеотидах от старт-кодона; также этот (вернее, обратно-комплементарный ему) мотив был обнаружен на 3'-конце всех 7 16S рРНК, причём с наименьшим p-value среди всех находок. Можно сделать вывод, что найденный мотив действительно является последовательностью Шайна-Дальгарно.