Учебный сайт
Владимира Ноздрина

Сигналы и мотивы

 В этом задании я искал мотив сигнала Шайн-Дальгарно в геноме Cronobacter dublinensis. Для начала я скачал геном бактерии из NCBI (ссылка). Чтобы достать нужные последовательности, я написал скрипт на Python. Я не нашёл в features поля PE (в подсказках написано, что надо брать те гены, у которых PE не больше трёх), поэтому я просто взял upstream фрагменты первых 99 генов, которые не hypothetical protein. Туда же я добавил 20 нуклеотидов с 3'-конца первой из 16S рРНК (эти фрагменты идентичны для всех 16S рРНК этой бактерии, поэтому неважно, какую из них брать). В итоге получился файл, в котором 100 последовательностей длины 20. Посмотреть его можно по ссылке.
 Полученный файл я загрузил в MEME на стандартных настройках (скриншот настроек). Сначала он выдал три мотива, один из которых был нормальным, а два других шумовыми, поэтому я попросил его искать только один мотив. Эту выдачу можно посмотреть как в HTML и TXT форматах. Из текстовой выдачи я взял log-odds matrix и переделал её так, чтобы она выглядела как PWM. Получился вот такой вот файл: ссылка.
 Судя по текстовому файлу, мотив был найден в 75 последовательностях. То есть в 74.8% белков (один из рРНК).
 Лого найденного мотива можно увидеть на Рис.1. Мотив находится близко к старт-кодону, а также содержится на 3'-конце 16S рРНК, поэтому я думаю, что это и есть последовательность Шайн-Дальгарно Cronobacter dublinensis. Сигнал кажется довольно сильным, особенно GGA в середине кажутся довольно консервативными.

Рисунок 1. Лого мотива.
Ради интереса я запустил MEME вообще для всех генов, которые не hypothetical protein (это 3786 генов). Мотив получился точно таким же. (Рис. 2)
Рисунок 2. Лого мотива для всех генов.
 Отчёт получился коротким. Надеюсь, я написал всё, что нужно:(