Большинство генов, кодирующих белок, у многоклеточных эукариот прерываются множеством интронов, которые удаляются сплайсосомой в последовательности согласованных реакций гидролиза и лигирования. Для эффективного сплайсинга требуется высокоточное распознавание интронов и экзонов, и это распознавание зависит от иерархии сигналов различной специфичности.
ESE, расположенные в областях экзонов, близких к донорным или акцепторным сайтам сплайсинга, способствуют распознаванию экзонов (часто называемому определением экзона) посредством связывания SR-белков через их RRM-домены и, таким образом, облегчают рекрутирование экзонов.
Dewey CN, Rogozin IB, Koonin EV. Compensatory relationship between splice sites and exonic splicing signals depending on the length of vertebrate introns. BMC Genomics. 2006 Dec 8;7:311. doi: 10.1186/1471-2164-7-311. PMID: 17156453; PMCID: PMC1713244.
Для выполнения задания использовался скрипт, основанный на коде Муравьёва Георгия. В ходе работы скрипта было получено 500 последовательностей для обучения, 500 последовательностей для тестирования и 500 последовательностей в качестве отрицательного контроля.
Далее была построена позиционная весовая матрица (PWM) на материале обучения, представленная в Таблице 1.
На Рис.1 представлена гистограмма весов последовательностей. Видно, что в отрицательном контроле значения весов сдвинуты влево по сравнению с группой обучения и положительным контролем. В качестве порога, отделяющего отрицательный контроль, было выбрано значение 4. Учитывая этот порог, построили таблицу результатов проверки (Таблица 2). Видно, что при таком пороге большая часть последовательностей обучения и положительного контроля попали в группу Сигнал(+), а отрицательного контроля - в Сигнал(-).
Затем была построена матрица информационного содержания для выравнивания из материала обучения. Она представлена в Таблице 3.
С помощью сервиса WebLOGO 3 было получено Logo по материалу обучения (Рис.2).
Я выбрала штамм Escherichia coli str. K-12 substr. DH10B. Количество сайтов GAATTC оказалось равным 660, при этом ожидаемое число, полученное перемножением частот оснований (с учетом GC-состава) на длину генома, равнялось 1108. Для оценки различия использовалось биномиальное распределение, получили статистически значимое различие, так как p-value = 3.14e-48.