Экзонные энхансеры сплайсинга (ESE)

Большинство генов, кодирующих белок, у многоклеточных эукариот прерываются множеством интронов, которые удаляются сплайсосомой в последовательности согласованных реакций гидролиза и лигирования. Для эффективного сплайсинга требуется высокоточное распознавание интронов и экзонов, и это распознавание зависит от иерархии сигналов различной специфичности.

ESE, расположенные в областях экзонов, близких к донорным или акцепторным сайтам сплайсинга, способствуют распознаванию экзонов (часто называемому определением экзона) посредством связывания SR-белков через их RRM-домены и, таким образом, облегчают рекрутирование экзонов.

Литература:

Dewey CN, Rogozin IB, Koonin EV. Compensatory relationship between splice sites and exonic splicing signals depending on the length of vertebrate introns. BMC Genomics. 2006 Dec 8;7:311. doi: 10.1186/1471-2164-7-311. PMID: 17156453; PMCID: PMC1713244.

Окрестность ATG кодона - старта транскрипции в геноме человека

Для выполнения задания использовался скрипт, основанный на коде Муравьёва Георгия. В ходе работы скрипта было получено 500 последовательностей для обучения, 500 последовательностей для тестирования и 500 последовательностей в качестве отрицательного контроля.

Далее была построена позиционная весовая матрица (PWM) на материале обучения, представленная в Таблице 1.

Таблица 1. Матрица PWM для последовательности Козак человека.

На Рис.1 представлена гистограмма весов последовательностей. Видно, что в отрицательном контроле значения весов сдвинуты влево по сравнению с группой обучения и положительным контролем. В качестве порога, отделяющего отрицательный контроль, было выбрано значение 4. Учитывая этот порог, построили таблицу результатов проверки (Таблица 2). Видно, что при таком пороге большая часть последовательностей обучения и положительного контроля попали в группу Сигнал(+), а отрицательного контроля - в Сигнал(-).

Рис. 1. Гистограмма весов.
Таблица 2. Таблица результатов проверки.

Затем была построена матрица информационного содержания для выравнивания из материала обучения. Она представлена в Таблице 3.

Таблица 3. Матрица информационного содержания.

С помощью сервиса WebLOGO 3 было получено Logo по материалу обучения (Рис.2).

Рис. 2. LOGO для последовательности Козак.

Подсчет числа сайтов GAATTC в полном геноме E.coli

Я выбрала штамм Escherichia coli str. K-12 substr. DH10B. Количество сайтов GAATTC оказалось равным 660, при этом ожидаемое число, полученное перемножением частот оснований (с учетом GC-состава) на длину генома, равнялось 1108. Для оценки различия использовалось биномиальное распределение, получили статистически значимое различие, так как p-value = 3.14e-48.