Поиск последовательности Шайна — Дальгарно

Для поиска мотивов была выбрана бактерия Rhodococcus ruber.

Подготовка последовательностей

С помощью кода выше из файла в формате genbank были отобраны CDS, длиной более 300 нуклеотидов, продуктами которых, не являются гипотетические белки, их координаты были сохранены в файл.

Далее по этим координатам были выбраны 300 последоавтельностей длиной 20 нуклеотидов в upstream этих генов, они были сохранены в файл и разбиты на 2 набора: 100 последовательностей для MEME и 200 для FIMO.

Далее был взят участок в 20 нуклеотидов 3' конца 16 рРНК и добавлен в файл для построения PWM.

Построение позиционно-весовой матрицы

Программа MEME была использована для построения PWM: meme meme_input.fasta -dna -minw 5 -maxw 8 -nmotifs 1

С выдачей в HTML формате можно ознакомится по ссылке. В результате был найден мотиф длиной 8 нуклеотидов, похожий на консенсусную последовательность Шайна — Дальгарно: AGGAGG. Он был обнаружен в 60 из 101 последовательности выборки. Ниже представлено LOGO мотива.

Проверка PWM

Для проверки была испольована программа fimo: fimo ./meme_out/meme.txt fimo_input.fasta

С выдачей в tsv фрмате можно ознакомится по ссылке. Было найдено 19 последовательностей из 200, что может говорить о не очень хорошем качестве полученной PWM.