Сигналы и мотивы

Скачать скрипт
Скачать исходную таблицу для Danio rerio

im


Beluga whale coronavirus SW1 (Coronaviridae; Orthocoronavirinae; Gammacoronavirus; Cegacovirus), число поздних генов: 13, Upstrem последовательности в 100 нуклеотидов вырезала при помощи команд по типу:
samtools faidx sequence.fasta NC_010646.1:START-STOP >> all.fasta

Запуск meme: meme all.fasta -dna -nmotifs 3 -minw 6

Полноценным консенсусом можно было бы считать только первый из представленных на картинке ниже, потому что он был найден почти во всех последовательностях.
Изображения полученных консенсусов:

im


Расположение. Красный прямоугольник - выбранный консенсус.
im


Давайте поближе посмотрим на консенсус:
Сначала, его LOGO:
im


Выравнивание:
im


После я запустила FIMO с поиском только по данной цепочке. Ничего дельного не нашлось, разброс по координатам неприятный. При малейшем уменьшении порога выдача сразу разрасталась, разброс по координатам сохранялся.
im

1) Длина мотива - 15, а не 6
2) Core sequence в стате указана как CTAAC, в найденном мной от него остались с какой-то долей уверенности только повторяющиеся аденины
3) выбранный мотив был найден перед 11 последовательностями из 13, однако, FIMO нашел только для трех последовательностей
4) e-value того, что всё же нашлось, довольно низкое.

Мы можем сделать вывод о том, что найденный мотив довольно слабый, и возможно, не является сигналом, регулирующим синтез мРНК поздних генов. Однако, все остальные, найденные при помощи MEME, мотивы были найдены только перед небольшим количеством последовательностей.