Сигналы и мотивы - 2

Сигнал в промоторах генов в геноме

Я выполнила работу дважды. В первый раз в МЕМЕ я загружала 40 последовательностей, а в FIMO 60. Не нашла удовлетворительных результатов, попробовала загрузить в МЕМЕ уже 300, а в FIMO 500.

Часть Первая. Работа с небольшим числом последовательностей

В train- 40, в test - 60.

Поиск мотива указанного сигнала с помощью сервиса MEME

MEME.png

Найден только один мотив с подходящим e-value. На настоящий сигнал промотора это не похоже. Из литературы (и презентаций из лекций) известно, что TATA-бокс состоит из -35 участка (консервативные TTGANN) И -10 (состоит из T и А, но может быть и C или G), между ними вариабельный участок в среднем 18 нк, но возможно меньше или больше.
Можно сделать несколько предположение. Возможно, участок, содержащий несколько А подряд важен для расплетания цепи. В самом начале видны консервативные TTG, но после идёт С, на -35 участок не похоже.

Глазами я сравнивала свой сигнал и сигналы на картинке из статьи https://www.researchgate.net/figure/Promoters-transcribed-by-SigH-associated-to-the-RNAP_tbl4_343634441. Можно найти небольшие общие сходства с представленными мотивами для посадки РНК-полимеразы.

Попытка найти мотив программой (рекомендуема в лекции) https://opera.autosome.org/chipmunk/discovery не удалась, так как очень долго было ждать результата для 40 последовательностей. Запуск ее через консоль не показал хороших результатов.

Выдача MEME в HTML, в TXT

Проверка сигнала с помощью сервиса FIMO

Значение q-value (p-value с поправкой на множественное тестирование) оказался довольно большим для получившихся мотивов, что только убеждает нас в том, что перед нами не настоящих сигнал.

Найденный консенсус также не дал уверенности в том, что перед нами значимый сигнал.

Выдача FIMO в HTML, в TSV.

Часть Вторая. Работа с большим числом последовательностей

Вариант, когда взяли больше последовательностей. В train - 288, в test - 432.

signal_more.png

Первая находка не представляет интереса, так как был найден просто старт-кодон АТГ. Вторая находка также имеет хороший e-value и больше похожа на мотив, чем 3-5, поэтому далее я исследовала только её. Всё ещё трудно предположить функциональную роль найденнных консервативных сайтов, но возможно участки TGA и TTGTcaG могут участвовать в связывании с какими-нибудь транскрипционными факторами этой бактерии.

Выдача MEME в HTML, в TXT

Проверка сигнала с помощью сервиса FIMO

fimo2.png

Было найдено 8 последовательностей с хорошим q-value. Всё также сложно однозначно сделать вывод сигнал это или нет.

Выдача FIMO в HTML, в TSV