Практикум 6. Сигналы и мотивы

Лактозный оперон

Метаболизм лактозы у прокариот регулируется ее концентрацией в среде. Выделяют четыре случая:

-В среде много глюкозы и нет лактозы

-В среде есть и глюкоза, и лактоза

-В среде есть только лактоза

-В среде нет ни того, ни другого

Транскрипция генов лактозного метаболизма определяется лактозным опероном. Оперон состоит из промотора, оператора и терминатора, а также трех генов:

lacZ кодирует фермент β-галактозидазу, которая расщепляет дисахарид лактозу на глюкозу и галактозу

lacY кодирует β-галактозидпермеазу, мембранный транспортный белок, который переносит лактозу внутрь клетки

lacA кодирует β-галактозидтрансацетилазу, фермент, переносящий ацетильную группу от ацетил-КoA на бета-галактозиды

Первыми работу лактозного оперона описали ученые Ф. Жакобом и Ж. Моно [1].

Непосредственно регуляция осуществляется с помощью Lac-репрессора, который связывается с оператором и тормозит транскрипцию, если в среде есть глюкоза, и трансактиватором CRP, который при появлении в клетке цАМФ (признак окислительного стресса) связывается с промотором и активирует транскрипцию. На схемах ниже можно увидеть, как взаимодействуют белки с промотором в описанных выше ситуациях:

Рис. 1:Есть глюкоза, нет лактозы

Рис. 2: Есть глюкоза, есть лактоза

Рис. 3: Нет глюкозы, нет лактозы

Рис. 4: Нет глюкозы, есть лактоза

Ссылки на литературу:

[1] - Jacob F; Monod J. Genetic regulatory mechanisms in the synthesis of proteins PMID 13718526

Рисунки были взяты из презентаций курса молекулярной биологии Королева С.П.

Последовательность Козак, окрестность старта транскрипции в геноме человека

У эукариот в геноме есть окрестность старт кодона AТG, также называемая последовательностью Козак. Эта последовательность включает 4-6 нуклеотидов, предшествующих старт-кодону, и один-два нуклеотида непосредственно после старт-кодона. У млекопитающих оптимальный контекст имеет вид GCCRCCAUGG ( Kozak M. At least six nucleotides preceding the AUG initiator codon enhance translation in mammalian cells).

Обработка данных была выполнена с помощью программы на python: Ссылка.

На вход программа принимает таблицу, содержащую гены человека и их позиции в геноме, в формате .tsv.

В результате работы получаются следующие файлы:

- Файлы для построения весовой позиционной матрицы с последовательностями для обучения (kozak-learn.fasta), тестирования (kozak-test.fasta) и негативного контроля (pseudokozak1.fasta)

- Позиционная весовая матрица (result.csv)

- Гистограммы с распределением весов (hist.svg и hist.png)

- Результаты проверки (check.csv)

- Матрица инфомационного содержания (ic.csv)

Файлы kozak-learn.fasta, kozak-test.fasta и pseudokozak1.fasta содержат по 500 последовательностей, на основе которых была построена следующая позиционная весовая матрица (Таблица 1). При вычислении логарифма отношения использовались pseudocounts, равные 0.1 для всех букв. Это было сделано во избежание получения нулевых частот.

letter	1	2	3	4	5	6	7	8	9	10	11	12	13
A	-0.45	-0.46	-0.46	-0.25	0.29	-0.04	-0.38	1.22	-6.60	-6.60	-0.32	-0.15	-0.67
T	-0.34	-0.49	-0.40	-0.57	-1.16	-0.79	-0.95	-6.60	1.22	-6.60	-0.69	-0.50	-0.35
G	0.28	0.63	0.39	0.28	0.63	0.14	0.38	-6.24	-6.24	1.58	0.88	-0.14	0.60
C	0.48	0.20	0.42	0.48	-0.45	0.52	0.63	-6.24	-6.24	-6.24	-0.34	0.64	0.28

Таблица 1: Позиционная весовая матрица

С помощью приведенного выше скрипта также была построена гистограмма на основе вычисленных весов последовательностей (Рис.5).

Рис. 5: Гистограмма весов последовательностей

Из гистограммы можно заметить, что порог веса находится около 4, так как при весе выше 4 находка считается удачной. Гистограмма отрицательного контроля сдвинута влево относительно графиков распределения для последовательностей обучения и тестирования практически на четыре деления (то есть довольно заметно).

На основе этих данных была построена таблица результатов проверки (Таблица 2) с порогом 4.

	Обучение	Положительный контроль	Отрицательный контроль
Сигнал(+)	290 (58.0%)	276 (55.2%)	82 (16.4%)
Сигнал(-)	210 (42.0%)	224 (44.8%)	418 (83.6%)

Таблица 2: Таблица с результатами проверки находок

Из таблицы видно, что вероятность ошибочно принять отрицательный результат за положительный довольно значительна - 44.8%, при этом с вероятностью 16.4% положительный сигнал будет принят за отрицательный . А значит почти в 30% случаев находка будет оценена неверно. Это объясняется большой областью перекрытия негативного и положительного контроля на гистограмме.

Информационное содержание сигнала

Также с помощью приведенного выше кода была построена матрица информационного содержания (Таблица 3).

letter	1	2	3	4	5	6	7	8	9	10	11	12	13
A	-0.12	-0.12	-0.12	-0.08	0.16	-0.02	-0.11	1.76	0.00	0.00	-0.10	-0.05	-0.15
T	-0.10	-0.13	-0.11	-0.14	-0.15	-0.15	-0.16	0.00	1.76	0.00	-0.15	-0.13	-0.10
G	0.11	0.35	0.17	0.11	0.35	0.05	0.16	0.00	0.00	2.29	0.62	-0.04	0.32
C	0.23	0.07	0.19	0.23	-0.09	0.26	0.35	0.00	0.00	0.00	-0.07	0.36	0.11
IC(j)	0.11	0.17	0.12	0.12	0.27	0.14	0.25	1.76	1.76	2.29	0.30	0.14	0.18

Таблица 3: Матрица информационного содержания

С помощью сервиса WebLOGO по файлу для обучения (kozak-learn.fasta) было построено LOGO (Рис. 6)

Рис. 6: LOGO, построенное по нашим последовательностям

Помимо высоко консервативного участка 8-10, заметно преобладание пуринов на позициях 5, 7 и 11.

Число сайтов GAATTC в полном геноме штамма E.coli

Для анализа был выбран референсный геном бактерии Escherichia coli O157:H7 str. Sakai DNA (NC_002695.2). Геном содержит 5,329 генов с GC-составом 50,5%.

С помощью программы на python, были получены следующие данные:

GC-совтав генома	0.5053704794221342
Вероятность буквы A на i-той позиции	0.2473147602889329
Вероятность буквы T на i-той позиции	0.2473147602889329
Вероятность буквы G на i-той позиции	0.2526852397110671
Вероятность буквы C на i-той позиции	0.2526852397110671
Вероятность GAATTC на позициях i..i+5	0.00023886905692885308
Ожидаемое число GAATTC в геноме	1313.4387080953975
Реальное число GAATTC в геноме	787
p-value	9.219809820757712e-56

Таблица 4: Информация о геноме нашей бактерии

Из таблицы мы видим, что реальное количество сайтов рестрикции GAATTC в геноме бактерии практически в два раза ниже ожидаемого.

Ссылки

В работе были использованы программы Муравьева Г. (Ссылка на страницу).