Сигнал (NikR operator site)

Оператор NikR из E.coli состоит из двух симметричных последовательностей 5′-GTATGA-3′, разделённых 16 парами нуклотидов. При длительном поступлении ионов никеля в клетку, связываеющий его в виде димера NikR препятствуют транскрипции белка nikABCDE, необходимого для импорта никеля в клетку. Оператор сильный и высокоэффективный. (DOI: https://doi.org/10.1074/jbc.M002232200)

PWM

Координаты старт-кодонов первой хромосомы человека: chr1.tsv

Позиционная весовая матрица (PWM)

Координаты ATG из последовательности коронавируса:sarsatg.tsv Последовательность генома коронавируса:sars.fasta

Распределение весов

Из приведенных ниже боксплотов видно, что в среднем последоватльности положительного контроля имеют значительно больший вес, чем последовательности отрицательного контроля (за исключением нескольких последовательностей, попавших в нижний квартиль). Такой результат был вполне очевиден, так как последовательность Козак "окружает" старт-кодоны, и вероятность встретить её в произвольных участках намного ниже.

Матрица информационного содержания

Logo

Загрузив последовательности в webLogo, я получил следующую визуализацию сигнала. Как видно из изображения, последовательность имеет значимый информационный вес, что говорит о неслучайности распределения нуклеотидов в данных позициях. Таким образом, можно утверждать о существовании данного сигнала (последовательность Козак) в окрестности старт-кодонов (7 нуклеотидов до и 3 после). 1

Благодарности

Выражаю благодарность Гукову Борису за помощь в составлении скриптов.