Практикум 6

Отчет по практикуму 6

Задание 1. Сигнал, закодированный в геноме

CRE - особая последовательность ДНК в промоторе обширной группы генов, с которой связывается транскрипционный фактор CREB. Этот транскрипционнный фактор регулирует транскрипцию генов соматостатина, энкефалина, кортиколиберина и многих других нейропептидов. В свою очередь, активность самого CREB регулируется посредством фосфорилирования: этот транскрипционный фактор способен связываться с ДНК только если он фосфорилирован по остатку серина 133 [1]. Показано участие транскрипционного фактора CREB в эмбриогенезе нервной системы, а также работе клеточных механизмов памяти [2].

Задание 2. Построение позиционно-весовой матрицы для последовательности Шайна-Дальгарно.

Код, использованный в задании доступен по ссылке.

Для поиска последовательностей Шайна-Дальгарно был выбран референсный геном E. coli с сайта NCBI. Окрестности 20 п.н. перед старт-кодонами были определены при помощи хромосомной таблицы, взятой на том же сайте. Для E. coli консенсусной считается последовательность из 7 нуклеотидов AGGAGGT. В качестве материала обучения были выбраны последовательности из 7 нуклеотидов в окрестности 20 п.н. перед старт-кодоном белок-кодирующих генов, которые отличались от консенсуса не более чем на 2 позиции. Из 4337 белок-кодирующих генов, такие последовательности нашлись для 2486. На материале обучения была построена позиционная весовая матрица (рис. 2).

Рис. 2. Позиционная весовая матрица (ПВМ).

На основании ПВМ был проведен поиск в материале тестирования - 20 п.н. перед старт-кодоном белок-кодирующих генов. Из каждой окрестности старт-кодона была выбрана последовательность из 7 нуклеотидов с наибольшим весом. Аналогичная процедура была проведена с материалом негативного контроля - случайными последовательностями из данного генома, не пересекающимися с материалом тестирования, взятыми в том же количестве. Для материала обучения, материала тестирования и негативного контроля были получены гистограммы весов (рис.3-5). На основании данных гистограмм в качестве порогового значения веса было выбрано значение 0.5, поскольку при этом значении порог проходили все последовательности из материала обучения и всего 5% последовательностей из негативного контроля.

Рис. 3. Гистограмма весов материала обучения.
Рис. 4. Гистограмма весов материала тестирования.
Рис. 5. Гистограмма весов негативного контроля.
Табл. 1. Результаты поиска при помощи PWM с порогом по весу 3.0
+ -
Материал обучения 2486 0
Материал тестирования 3893 444
Негативный контроль 194 4143

В качестве вывода можно отметить, что поиск сигнала при помощи позиционно-весовой матрицы дал значительно более правдоподобные результаты по сравнению с консервативной оценкой, использованной для сбора материала обучения (при помощи ПВМ последовательность Шайна-Дальгарно была найдена перед старт-кодоном 90% генов, а при помощи консервативной оценки - у 57%). Однако, зная о роли последовательности Шайна-Дальгарно, кажется, что даже такая оценка немного занижена. Стоит также упомянуть то, что материал обучения частично перекрывался с материалом тестирования.

Задание 3. Матрица информационного содержания и Logo

На основе ПВМ была построена матрица информационного содержания (рис. 6) и Logo (рис. 7) при помощи онлайн-сервиса WebLogo.

Рис. 6. Матрица информационного содержания.
Рис. 7. Logo последовательности Шайна-Дальгарно E. coli.

Задание 4. GAATTC в геноме E. coli

На основе процентного содержания нуклеотидов в геноме E. coli (для анализа был взят тот же геном, что и в предыдущих заданиях) было подсчитано математическое ожидание последовательностей GAATTC, оно оказалось равно 1097. Оно оказалось значительно меньше, чем реальное количество таких последовательностей в геноме, равное 646. Моделируя распределение встречаемости данной последовательности распределением Пуассона, можно показать, что это отличие достоверно на любом разумном уровне значимости (p-value = 1.3*10^(-50)). Последовательность GAATTC является сайтом рестрикции, так что снижение частоты встречаемости для нее можно объяснить давлением отбора.