Сигналы и мотивы. LOGO


В этом практикуме нам нужно было вытащить сайт инициации трансляции (последовательность Шайна-Дальгарно), которую мы начали искать с помощью пакета MEME. Сегодня продолжим искать с помощью FIMO. На вход подаём следующую выдачу с матрицей PWM. Запустим программу:
fimo --norc /meme_out/meme.txt shine_agg.fasta
Выдачу FIMO можно найти тут. Всего было обнаружено 50 находок. При условии что в MEME их было 439, выходит, с помощью FIMO мы нашли лишь 11%. Выпишем кодирующие последовательности с названиями:
awk '{print ">"$2 "\n" $8}' fimo.txt > seq.fasta - файл
Выпишем также расстояния от найденного сигнала до 1 кодирующего нуклеотида. Для этого из 20 (а именно такой была наша длина последовательности, которую мы выписывали из генома) вычтем координату конца:
awk '{print 20 - $4}' fimo.txt > dist.txt - файл
Построим гистограмму распределения расстояний с помощью Python и пакета seaborn.

Рис. 1. Гистограмма распределения расстояний от последовательности Шайна-Дальгарно до старта трансляции.
Выписанные последовательности загрузим в сервис для отрисовки LOGO с информационным содержанием.
Рис. 2. LOGO последовательности Шайна-Дальгарно из нашей бактерии
Найденный нами сигнал очень похож на классическую последовательность Шайна-Дальгарно AGGAGG, но является несколько более длинным. Также, учитывая, что найден он был далеко не во всех upstream-элементах, это может значить, что сигнал является довольно слабым и не всегда именно он отвечает за инициацию трансляции.