В этом практикуме нам нужно было вытащить сайт инициации трансляции (последовательность Шайна-Дальгарно), которую мы начали искать с помощью пакета MEME.
Сегодня продолжим искать с помощью FIMO. На вход подаём следующую выдачу с матрицей PWM. Запустим программу:
fimo --norc /meme_out/meme.txt shine_agg.fasta
Выдачу FIMO можно найти тут. Всего было обнаружено 50 находок.
При условии что в MEME их было 439, выходит, с помощью FIMO мы нашли лишь 11%.
Выпишем кодирующие последовательности с названиями:
awk '{print ">"$2 "\n" $8}' fimo.txt > seq.fasta
- файл
Выпишем также расстояния от найденного сигнала до 1 кодирующего нуклеотида. Для этого из 20 (а именно такой была наша длина последовательности,
которую мы выписывали из генома) вычтем координату конца:
awk '{print 20 - $4}' fimo.txt > dist.txt
- файл
Построим гистограмму распределения расстояний с помощью Python и пакета seaborn.
Выписанные последовательности загрузим в сервис для отрисовки LOGO с информационным содержанием.
Найденный нами сигнал очень похож на классическую последовательность Шайна-Дальгарно AGGAGG, но является несколько более длинным. Также, учитывая, что
найден он был далеко не во всех upstream-элементах, это может значить, что сигнал является довольно слабым и не всегда именно он отвечает за инициацию трансляции.