Поиск мотива последовательности Shine-Dalgarno в геноме Escherichia coli K-12

Для поиска мотива последовательности Shine-Dalgarno (SD) я выбрала штамм K-12 Escherichia coli, с которым работаю в лаборатории.

Подготовка входных последовательностей

Из GenBank был скачан геном, а также Feature table выбранной бактерии. Из кодирующих последовательностей было выбрано 300 "хороших": кодируют не гипотетические белки, длина последовательности больше 300 нуклеотидов (скорее всего, гены хорошо аннотированы). Затем были получены upstream участки этих последовательностей (20 нуклеотидов до старт-кодона). 100 участков было записано в материал обучения (learn.fasta), остальные 200 - в материал для тестирования (test.fasta). В материал обучения также был добавлен участок из 20 нуклеотидов у 3' конца 16S рРНК, так как в этом месте генома находится последовательность, комплементарная SD.

Поиск мотивов с помощью MEME

Поиск мотива осуществлялся на основе материала обучения с помощью программы MEME: meme learn.fasta -dna -minw 8 -maxw 10 -nmotifs 1. На выходе было получено Logo - графическое изображение веса каждой буквы в мотиве (рис. 1) и HTML-файл с информацией о построении Logo.

Logo
Рис.1 Logo последовательности Shine-Dalgarno E.Coli K-12

Консенсусная последовательность SD E.Coli: AGGAGGU. Найденный мотив действительно похож на классическую последовательность. Различия могут объясняться тем, что у прокариот существуют другие механизмы инициации трансляции.

Поиск SD в выборке для тестирования с помощью FIMO

fimo --thresh 0.001 ./meme_out/meme.txt test.fasta

Результат выдачи - файл с 52 находками мотивов (из 200 входных последовательностей), удовлетворяющих p-value=0.001. Лучший мотив ACAGGAGT соответствует выдаче MEME. На тестовой выборке удалось найти мотив с помощью FIMO.

Выдачи MEME и FIMO показали практически одиныковые результаты. Оба алгоритма успешно справились с задачей нахождения мотива последовательности SD в геноме Escherichia coli K-12.