В этом задании я искал мотив сигнала Шайн-Дальгарно в геноме Cronobacter dublinensis. Для начала я скачал геном бактерии из NCBI (ссылка). Чтобы достать нужные последовательности, я написал скрипт на Python. Я не нашёл в features поля PE (в подсказках написано, что надо брать те гены, у которых PE не больше трёх), поэтому я просто взял upstream фрагменты первых 99 генов, которые не hypothetical protein. Туда же я добавил 20 нуклеотидов с 3'-конца первой из 16S рРНК (эти фрагменты идентичны для всех 16S рРНК этой бактерии, поэтому неважно, какую из них брать). В итоге получился файл, в котором 100 последовательностей длины 20. Посмотреть его можно по ссылке.
Полученный файл я загрузил в MEME на стандартных настройках (скриншот настроек). Сначала он выдал три мотива, один из которых был нормальным, а два других шумовыми, поэтому я попросил его искать только один мотив. Эту выдачу можно посмотреть как в HTML и TXT форматах. Из текстовой выдачи я взял log-odds matrix и переделал её так, чтобы она выглядела как PWM. Получился вот такой вот файл: ссылка.
Судя по текстовому файлу, мотив был найден в 75 последовательностях. То есть в 74.8% белков (один из рРНК).
Лого найденного мотива можно увидеть на Рис.1. Мотив находится близко к старт-кодону, а также содержится на 3'-конце 16S рРНК, поэтому я думаю, что это и есть последовательность Шайн-Дальгарно Cronobacter dublinensis. Сигнал кажется довольно сильным, особенно GGA в середине кажутся довольно консервативными.
Ради интереса я запустил MEME вообще для всех генов, которые не hypothetical protein (это 3786 генов). Мотив получился точно таким же. (Рис. 2)
Отчёт получился коротким. Надеюсь, я написал всё, что нужно:(