Отчет по практикуму 6
Задание 1. Сигнал, закодированный в геноме
CRE - особая последовательность ДНК в промоторе обширной группы генов, с которой связывается транскрипционный фактор CREB.
Этот транскрипционнный фактор регулирует транскрипцию генов соматостатина, энкефалина, кортиколиберина
и многих других нейропептидов. В свою очередь, активность самого CREB регулируется посредством фосфорилирования: этот
транскрипционный фактор способен связываться с ДНК только если он фосфорилирован по остатку серина 133 [1].
Показано участие транскрипционного фактора CREB в эмбриогенезе нервной системы, а также
работе клеточных механизмов памяти [2].
- a) Сигнал - последовательность из 8 нуклеотидов ДНК (консенсус TGACGTCA).
- b) Сигнал адресован транскрипционному фактору CREB.
- c) CREB связывается с последовательностью CRE в промоторе одного из регулируемых генов посредством т. н. лейциновой молнии и, связываясь затем с белком CBP, усиливает или угнетает (в зависимости от изоформы) транскрипцию данного гена [3].
- d) Сигнал высокоэффективен: фосфорилированный транскрипционный фактор почти всегда связывается с CRE [1].

Задание 2. Построение позиционно-весовой матрицы для последовательности Шайна-Дальгарно.
Код, использованный в задании доступен по ссылке.
Для поиска последовательностей Шайна-Дальгарно был выбран референсный геном E. coli с сайта NCBI. Окрестности 20 п.н. перед старт-кодонами были определены при помощи хромосомной таблицы, взятой на том же сайте. Для E. coli консенсусной считается последовательность из 7 нуклеотидов AGGAGGT. В качестве материала обучения были выбраны последовательности из 7 нуклеотидов в окрестности 20 п.н. перед старт-кодоном белок-кодирующих генов, которые отличались от консенсуса не более чем на 2 позиции. Из 4337 белок-кодирующих генов, такие последовательности нашлись для 2486. На материале обучения была построена позиционная весовая матрица (рис. 2).

На основании ПВМ был проведен поиск в материале тестирования - 20 п.н. перед старт-кодоном белок-кодирующих генов. Из каждой окрестности старт-кодона была выбрана последовательность из 7 нуклеотидов с наибольшим весом. Аналогичная процедура была проведена с материалом негативного контроля - случайными последовательностями из данного генома, не пересекающимися с материалом тестирования, взятыми в том же количестве. Для материала обучения, материала тестирования и негативного контроля были получены гистограммы весов (рис.3-5). На основании данных гистограмм в качестве порогового значения веса было выбрано значение 0.5, поскольку при этом значении порог проходили все последовательности из материала обучения и всего 5% последовательностей из негативного контроля.



+ | - | |
Материал обучения | 2486 | 0 |
Материал тестирования | 3893 | 444 |
Негативный контроль | 194 | 4143 |
В качестве вывода можно отметить, что поиск сигнала при помощи позиционно-весовой матрицы дал значительно более правдоподобные результаты по сравнению с консервативной оценкой, использованной для сбора материала обучения (при помощи ПВМ последовательность Шайна-Дальгарно была найдена перед старт-кодоном 90% генов, а при помощи консервативной оценки - у 57%). Однако, зная о роли последовательности Шайна-Дальгарно, кажется, что даже такая оценка немного занижена. Стоит также упомянуть то, что материал обучения частично перекрывался с материалом тестирования.
Задание 3. Матрица информационного содержания и Logo
На основе ПВМ была построена матрица информационного содержания (рис. 6) и Logo (рис. 7) при помощи онлайн-сервиса WebLogo.


Задание 4. GAATTC в геноме E. coli
На основе процентного содержания нуклеотидов в геноме E. coli (для анализа был взят тот же геном, что и в предыдущих заданиях) было подсчитано математическое ожидание последовательностей GAATTC, оно оказалось равно 1097. Оно оказалось значительно меньше, чем реальное количество таких последовательностей в геноме, равное 646. Моделируя распределение встречаемости данной последовательности распределением Пуассона, можно показать, что это отличие достоверно на любом разумном уровне значимости (p-value = 1.3*10^(-50)). Последовательность GAATTC является сайтом рестрикции, так что снижение частоты встречаемости для нее можно объяснить давлением отбора.