Практикум 7. Сигналы и мотивы, часть 2
Данный практикум посвящён поиску последовательности Шайна-Дальгарно в upstream-участках белок-кодирующих генов бактерии Mycobacterium haemophilum с помощью программ MEME и FIMO.
Получение набора последовательностей
Последовательности для поиска мотива были взяты из генома M. haemophilum с GenBank AC: CP011883.2. Из этой записи были получены файл с последовательностью хромосомы и таблица локальных особенностей с кодирующими участками. Таблица была переведена в формат xls при помощи скрипта features2CDSs.py, после чего из неё были удалены гены короче 300 п. н., а также гены «hypothetical protein», а из оставшихся были выбраны 1000 генов. Для каждого гена был выбран участок upstream в 30 п. н., и при помощи скрипта fragments2fasta.py эти участки были получены из файла с хромосомой (с учётом расположения гена на прямой или обратной цепи). Полученный файл с последовательностями можно просмотреть по ссылке.
Поиск мотива с использованием профиля
Сначала полученный набор последовательностей, как и в предыдущем практикуме, был подан на вход программе MEME:
meme fragments.fasta -dna -nmotifs 5 -minw 7 -maxw 10 -minsites 50
С выдачей можно ознакомиться здесь; интерес представляет найденный мотив №3, т. к. он более всего похож на искомую последовательность Шайна-Дальгарно. Стоит отметить, что в геноме M. haemophilum этот сигнал находится намного менее успешно, чем, к примеру, в геноме C. botulinum из прошлого практикума; объяснение того, почему последовательность Шайна-Дальгарно у M. haemophilum настолько неконсервативна, мне не удалось найти.
Далее выдача MEME, содержащая матрицу частот для искомого мотива, была подана на вход программе FIMO:
fimo --norc -motif 3 meme_out/meme.txt fragments.fasta
Выдача доступна по ссылке. Можно видеть, что последовательность Шайна-Дальгарно нашлась перед всего 26 генами из 1000 (2.6%), что, безусловно, очень мало. Судя по всему, последовательность этого сигнала в своём классическом виде встречается у M. haemophilum достаточно редко.
Тем не менее, здесь можно просмотреть список всех последовательностей, в которых был найден мотив, с указанием его расстояния от старт-кодона. На рисунке 1 изображено лого найденного мотива, на рисунке 2 - гистограмма распределения расстояния от сигнальной последовательности до стартового кодона.
К сожалению, было найдено слишком мало сайтов мотива, чтобы приведённые иллюстрации можно было назвать информативными.