Учебный сайт Ивана Федорова


Практикум 9

В этом практикуме был проведен поиск связанных с инициацией транскрипции сигнальных последовательностей в промоторах у археи Thermococcus prptonophilus.

Для начала было необходимо найти промоторы, принимая во внимание, что у прокариот некоторые гены объединяются в опероны и, следовательно, имеют общий промотор. Поэтому были взяты только гены, расстояние между которыми превышает 100 нуклеотидов (примерная длина промоторов). Таких генов 922, для них были скачаны предположительно промоторные последовательности (позиции с -100 по -1 от старт-кодона). Для контроля были взяты 755 межгенных последовательностей (позиции с -200 по -101 от старт-кодона для генов, у которых расстояние до предыдущего гена более 200 нуклеотидов).

По полученным промоторам была построена PWM и вычислена консенсусная последовательность.

Скрипт, использованный для скачивания последовательностей и построения PWM.

Затем с помощью пакета МЕМЕ был проведен поиск возможных сигналов. Поскольку поиск осуществлялся по большому набору последовательностей, была использована программа STREME.

Выдача STREME.

Как видно из полученной таблицы, только два сигнала имеют p-value меньше 0.05. Из них первый представляет особый интерес: он располагается в большинстве случаев примерно посередине промотора, чаще всего около позиции -30 от старт-кодона. Его длина 14 нуклеотидов, причем первые 6 имеют следующий вид: TTATAA. Можно предположить, что здесь находится ТАТА-бокс, который у архей, как и у эукариот, связывается факторами инициации транскрипции и служит местом посадки РНК-полимеразы.

Bootstrap

Рис.1. Предположительный сигнал инициации транскрипции.

Для поиска обнаруженного сигнала в последовательностях был использован алгоритм FIMO.

Выдача FIMO.

Программа обнаружила 1306 находок с p-value меньше 0.0001. Однако только у 200 из них q-value меньше 0.05, для них была построена PWM. Консенсус здесь слегка отличается от ТАТА-бокса: TTAAAA; при этом, если вычислять его для верхних 175 находок, консенсусом все еще будет TTATAA.

Для проверки достоверности находок была запущена STREME для контроля. Программа выдала 4 сигнала с p-value меньше 0.05, из них только для одного FIMO выдала находки с q-value меньше 0.05. Он довольно равномерно распределен по всей протяженности межгенных последовательностей и, скорее всего, не имеет смысла.

Bootstrap

Рис.2. Сигнал в межгенных последовательностях.

Таким образом, в ходе данного практикума был выявлен предположительный участок ТАТА-бокса - сигнала инициации транскрипции - у Thermococcus peptonophilus.