Практикум 6. Сигналы и мотивы, часть 1

В ходе этого практикума при помощи программы MEME был проведён поиск мотива сайта посадки рибосомы (последовательности Шайна-Дальгарно) для генов бактерии Clostridium botulinum.

Получение последовательностей для поиска мотива

Входные последовательности для поиска были получены из генома Clostridium botulinum (GenBank AC: CP028842.1). Для белок-кодирующих генов были взяты участки upstream в 30 нуклеотидов и старт-кодон; в выборку также были добавлены 7 последовательностей, обратно-комплементарных 7 генам 16S рРНК. Файл, содержащий входные последовательности, можно просмотреть по ссылке.

Поиск последовательности Шайна-Дальгарно

Для поиска была использована программа MEME на kodomo:

meme seq.fasta -dna -nmotifs 5 -minw 5 -maxw 10 -minsites 10

Аргумент -nmotifs задаёт количество мотивов, которое программа найдёт, после чего прекратит поиск; -minw и -maxw ограничивают возможную длину мотива (значения выбраны исходя из того, что консенсус последовательности Шайна-Дальгарно - GGAGG - имеет длину в 5 нуклеотидов); -minsites определяет минимальное число сайтов мотива, необходимое для того, чтобы мотив попал в выдачу. Благодаря тому, что для генов на обратной цепи исходно были взяты обратно-комплементарные последовательности, искать мотив на обратной цепи не требуется. Результат работы программы доступен здесь.

Первый мотив из выдачи напоминает последовательность Шайна-Дальгарно (подробнее о нём ниже); второй представляет собой стартовый кодон с коротким upstream участком; третий, четвёртый и пятый - это просто участки 16S рРНК, для которых по случайным причинам нашлись похожие паттерны в других последовательностях.

Можно видеть, что первый мотив был найден (причём с очень маленьким E-value = 4.7e-541) в 987 из 1007 входных последовательностей (среди upstream-участков генов белков - в 980 из 1000, или 98%), однако в некоторых из них, судя по расположению найденного мотива и относительно большому p-value, это обусловлено случайными причинами. На рисунке 1 изображено logo найденного мотива.

Рисунок 1. Logo найденной последовательности Шайна-Дальгарно

Таблица 1 представляет собой PWM с псевдоотсчётами, построенную для найденного мотива на основе матрицы частот из выдачи MEME (ссылка на файл с рассчётом).

Таблица 1. PWM для последовательности Шайна-Дальгарно

Наиболее информативная часть мотива имеет последовательность GGAGG, и в большинстве случаев он расположен в ~8 нуклеотидах от старт-кодона; также этот (вернее, обратно-комплементарный ему) мотив был обнаружен на 3'-конце всех 7 16S рРНК, причём с наименьшим p-value среди всех находок. Можно сделать вывод, что найденный мотив действительно является последовательностью Шайна-Дальгарно.