Из базы данных были выгружены полная последовательность генома батерии и разметка генов. При помощи скрипта файл с аннотацией был преобразован для работы следующего скрипта. Вторая программа вырезает из генома заданные фрагменты, находящиеся перед началом CDS. Для тренировочной выборки вырезались участки длиной 33 нуклеотида (3 нуклеотида – ATG), для тестовой – 43. После работы последнего скрипта из файлов .fasta удалялись последовательности, не содержащие в конце инициаторный кодон ATG. Наличие других кодонов не допускалось, так как информации об альтернативных кодонах для N. gonorrhoeae не было найдено. В тренировочную выборку попали участки около 190 генов из 2000, а в тестовую – 900 из 2000, включая фрагменты тестовой группы. Итого, для работы MEME и FIMO были подготовлены файлы тренировачной выборки и тестовой выборки соответственно.
Программа MEME была запущена с приведенными на фото параметрами:
Результаты следующие: файл с позиционной матрицей; файл с найденными мотивами; мотивы найдены на растоянии 11-9 нуклеотидов до ATG; лого мотива.
Найденные мотивы AAGGAA и AAGGAG напоминают последовательность Шайна-Дальгарно для E. coli (AGGAGG), но все же сильно отличаются. Далее была запущена программа FIMO с рекомендуемыми заданием настройками и ограничением p-value < 0,01. В результате в тестовой группе последовательность было найдено 596 мотивов. Полная выдача находится в файле.
По итогам проделанной работы можно делать вывод, что 1) найденые мотивы AAGGAA и AAGGAG являются сигналами; 2) положение сигнала говорит о том, что это, вероятно, последовательность Шайна-Дальгарно и 3) у N. gonorrhoeae отличная от E. coli последовательность SD.