-->

ПРАКТИКУМ 6.

СИГНАЛ АКТИВАЦИИ СПЛАЙСИНГА КЛАСТЕРА ЭКЗОНА 6 В ГЕНЕ DSCAM

Ген DSCAM (Down syndrome cell adhesion molecule) (мутация в родственном гене у человека приводит к синдрому дауна) и его белковый продукт были предметом обширных исследований из-за их решающей роли в развитии нейронов и самоизбегании. Молекула клеточной адгезии DSCAM у дрозофилы занимается адгезией нейронов. В развитие нервной системы важно добиться того, чтобы нейрон не давал синаптических связей сам с собой (нейроны должны обладать свойством самоизбегания). Это достигается тем, что каждый нейрон имеет строго определённый тип молекулы адгезии. Ген DSCAM содержит 95 взаимоисключающих альтернативных экзонов, содержащихся в четырёх кластерах по 12, 48, 33 и 2 экзонов (рис. 1). Проведя несложные расчёты, можно найти потенциальное число вариантов этого гена – 38016. Это почти в три раза больше, чем число генов у дрозофилы (13 821). Интересно, что достаточно известные механизмы взаимоисключающего сплайсинга не обнаружены для этого гена. Во взаимоисключающем сплайсинге кластера экзона 6 Dscam участвуют два консервативных элемента. Первый это сайт причаливания, расположенный в интроне между конститутивным экзоном 5 и первым вариантом экзона 6. Второй это селекторной сайт, расположенный выше каждого варианта экзона 6. И какой селекторный сайт из экзонов 6 провзаимодействует с причалом, тот экзон и будет выбран в сплайсинге. Аффинность селекторных сайтов к сайту причаливания может немного различаться. Говоря о сайте причаливания, мы имеем консервативность в разных видах, а говоря о селекторных сайтах, мы имеем консервативность даже в одном организме. Консенсус каждого сайта представлен на (рис 2)[1].

Сигнал состоит в том, что образуется спаренная структура сайта докинга и селекторного сайта. На такую структуру реагирует белок-репрессор сплайсинга. Репрессор высвобождает экзон и сплайсинг этого участка проходит. Сигнал высокоэффективен, так как после сплайсинга остаётся всегда остаётся только один вариант экзона шестого кластера.

Sorry!
Рис 1. Организация гена Dscam D. melanogaster.
Sorry!
Рис 2. Консенсус спаренных сайтов. Сайт докинга сверху, селекторный сайт снизу..

PWM ДЛЯ ПОСЛЕДОВАТЕЛЬНОСТИ КОЗАК ЧЕЛОВЕКА

Для выбора случайных генов из генома человека, построения матрицы PWM и IC использовал скрипт Кирилла Кузенкова. Для выполнения данного задания сначала требовалось построить позиционно весовую матрицу. Были выбраны 100 случайных последовательностей (7 нуклеотидов до старта трансляции + ATG + 3 нуклеотида после ATG). Таблица с человеческими генами. В качестве тренировочной выборки были взяты 40 последовательностей, а остальные 60 взяты для тестовой выборки. Для негативного контроля были выбраны 60 последовательностей окружение нестартовых ATG кодонов в геноме Sars-CoV-2. Использовалась разметка кодонов ATG генома вируса. Далее была построена позиционная весовая матрица(таблица 1). Для устранения нулевых частот использовались pseudocounts, равные 0.1 для всех букв. Апостериорные вероятности оснований были рассчитаны исходя из GC-состава генома человека. Затем были подсчитаны веса для всех выборок и построена гистограмма (рис. 3). Порог весов выбрал равным 4.0. После была построена таблица с количеством последовательностуй прошедших порог или нет (таблица 2).

Sorry!
Таблица 1. Позиционная весовая матрица.
Sorry!
Рис 3. Гистрограмма весов.
Sorry!
Таблица 2. Количество последовательностей, отобранных по порогу.

ПОСТРОЕНИЕ МАТРИЦЫ IC И LOGO ПОСЛЕДОВАТЕЛЬНОСТИ КОЗАК

На основе тренировочной выборке построена матрица IC (таблица 3). На сайте WebLogo было построено Logo консенсуса Козак по тренировочной выборке (рис. 4)

Sorry!
Таблица 3. Матрица информационного содержания.
Sorry!
Рисунок 4. Logo.

САЙТ GAATTC В ПОЛНОМ ГЕНОМЕ ШТАМА E. COLI

Я скачал полный геном штамма E. coli DSM 30083. Его GC состав равен 0.507. Количество сайтов GAATTC оказалось 694 при том, что ожидаемое количество таких сайтов оказалось равным 1163. Их разность составила 469. Проведя тест Хи-квадрат, было полученно p-value равное примерно 1е-27, что позволяет верить в значимость различий между ожидаемым и наблюдаемым значениями всречаемости GAATTC.