Практикум 7. Сигналы и мотивы, часть 2

Данный практикум посвящён поиску последовательности Шайна-Дальгарно в upstream-участках белок-кодирующих генов бактерии Mycobacterium haemophilum с помощью программ MEME и FIMO.

Получение набора последовательностей

Последовательности для поиска мотива были взяты из генома M. haemophilum с GenBank AC: CP011883.2. Из этой записи были получены файл с последовательностью хромосомы и таблица локальных особенностей с кодирующими участками. Таблица была переведена в формат xls при помощи скрипта features2CDSs.py, после чего из неё были удалены гены короче 300 п. н., а также гены «hypothetical protein», а из оставшихся были выбраны 1000 генов. Для каждого гена был выбран участок upstream в 30 п. н., и при помощи скрипта fragments2fasta.py эти участки были получены из файла с хромосомой (с учётом расположения гена на прямой или обратной цепи). Полученный файл с последовательностями можно просмотреть по ссылке.

Поиск мотива с использованием профиля

Сначала полученный набор последовательностей, как и в предыдущем практикуме, был подан на вход программе MEME:

meme fragments.fasta -dna -nmotifs 5 -minw 7 -maxw 10 -minsites 50

С выдачей можно ознакомиться здесь; интерес представляет найденный мотив №3, т. к. он более всего похож на искомую последовательность Шайна-Дальгарно. Стоит отметить, что в геноме M. haemophilum этот сигнал находится намного менее успешно, чем, к примеру, в геноме C. botulinum из прошлого практикума; объяснение того, почему последовательность Шайна-Дальгарно у M. haemophilum настолько неконсервативна, мне не удалось найти.

Далее выдача MEME, содержащая матрицу частот для искомого мотива, была подана на вход программе FIMO:

fimo --norc -motif 3 meme_out/meme.txt fragments.fasta

Выдача доступна по ссылке. Можно видеть, что последовательность Шайна-Дальгарно нашлась перед всего 26 генами из 1000 (2.6%), что, безусловно, очень мало. Судя по всему, последовательность этого сигнала в своём классическом виде встречается у M. haemophilum достаточно редко.

Тем не менее, здесь можно просмотреть список всех последовательностей, в которых был найден мотив, с указанием его расстояния от старт-кодона. На рисунке 1 изображено лого найденного мотива, на рисунке 2 - гистограмма распределения расстояния от сигнальной последовательности до стартового кодона.

Рисунок 1. Logo последовательности Шайна-Дальгарно в геноме M. haemophilum
Рисунок 2. Гистограмма распределения расстояния от последовательности Шайна-Дальгарно до старт-кодона

К сожалению, было найдено слишком мало сайтов мотива, чтобы приведённые иллюстрации можно было назвать информативными.