Практикум 6

Задание 1

Описание сигнала

РНК-полимераза прокариот состоит из нескольких субъединиц, среди которых важную роль играет сигма-фактор (σ-фактор), обеспечивающий специфическое связывание полимеразы с промотором. Для инициации транскрипции требуются специфические нуклеотидные консенсусные последовательности, которые сообщают σ-фактору, где именно связываться с ДНК. σ-фактор распознаёт последовательности в областях "-35" и "-10"; в области "-10" имеет консенсусную последовательность TATAAT, а область "-35" — TTGACA[1]. В данном практикуме мы рассмотрим сигнал TTGACA.

Рис. 1. Строение прокариотического промотора.

Сигнал представляет собой последовательность TTGACA, узнаваемую сигма-фактором σ70. После узнавания, фактор связывается с ДНК и собирается в комплекс с остальными субъединицами РНК-полимеразы (холофермент). Затем закрытый комплекс переходит в открытый комплекс, и при переходе к элонгации транскрипции, сигма-фактор диссоциирует от полимеразы[2]. Эффективность связывания σ-фактора с сигналом варьирует у разных видов, и, с учётом вариабельности сигнала, можно сделать вывод, что эффективность в целом низкая[1][3].

Задание 2

Построение PWM

Для работы я выбрал окрестность ATG кодона в геноме человека — последовательность Козак. При выполнении задания использовался скрипт, основанный на скрипте Георгия Муравьёва. После обработки таблицы генов человека я получил файлы с обучающей выборкой, тестовой выборкой и негативным контролем. Для обучающей выборки была построена позиционная весовая матрица (Таблица 1):

letter 1 2 3 4 5 6 7 8 9 10 11 12 13
A -0.27 -0.45 -0.16 -0.21 0.31 0.04 -0.32 1.22 -6.60 -6.60 -0.14 -0.01 -0.55
T -0.35 -0.43 -0.44 -0.80 -1.52 -0.74 -1.18 -6.60 1.22 -6.60 -0.60 -0.50 -0.30
G 0.11 0.66 0.25 0.25 0.66 -0.07 0.25 -6.24 -6.24 1.58 0.77 -0.03 0.50
C 0.51 0.09 0.38 0.58 -0.41 0.57 0.75 -6.24 -6.24 -6.24 -0.39 0.48 0.29

По вышеприведённым данным были построены гистограммы распределений для разных выборок. Можно заметить, что распределение негативного контроля сильно смещено влево по отношению к распределениям тестового и обучающего наборов. В качестве порогового значения между положительным и отрицательным контролем выбрано значение веса 4. С учётом этого построена проверочная таблица (Таблица 2):

 Рис. 2. Гистограммы распределений весов последовательностей.
Обучение Положительный контроль Отрицательный контроль
Cигнал(+) 372 (74.4%) 392 (78.4%) 148 (29.6%)
Cигнал(-) 128 (25.6%) 108 (21.6%) 352 (70.4%)

Судя по таблице, выбранное пороговое значение достаточно хорошо отражает разницу между положительным и отрицательным контролем.

Задание 3

Построение Logo

Для обучающей выборки была построена матрица информационного содержания (Таблица 3):

letter 1 2 3 4 5 6 7 8 9 10 11 12 13
A -0.09 -0.12 -0.06 -0.07 0.18 0.02 -0.10 1.76 0.00 0.00 -0.05 -0.00 -0.14
T -0.10 -0.12 -0.12 -0.15 -0.14 -0.15 -0.15 0.00 1.76 0.00 -0.14 -0.13 -0.10
G 0.03 0.38 0.09 0.09 0.38 -0.02 0.10 0.00 0.00 2.29 0.50 -0.01 0.24
C 0.25 0.03 0.16 0.31 -0.08 0.30 0.46 0.00 0.00 0.00 -0.08 0.23 0.11
IC(j) 0.09 0.16 0.07 0.17 0.34 0.15 0.31 1.76 1.76 2.29 0.22 0.09 0.13

IC выравнивания равно 7,54. Для обучающего набора последовательностей была построена LOGO-диаграмма с помощью сервиса WebLOGO. Особо консервативных участков перед старт-кодоном не наблюдается; только А в [-3] позиции и С в [-1] позиции. В целом, заметно соответствие полученного результата консенсусу GCCRCCATG[4].

 Рис. 3. LOGO для обучающего набора.

Задание 4

Сайты GAATTC в геноме E. coli

В качестве генома была взята последовательность хромосомы Escherichia coli, штамм O157:H7 str. Sakai. Для обработки последовательности использовался скрипт; по результатам его работы составлена таблица (Таблица 4):

Длина одной последовательности 7 890 332 100%
Число А 1 954 504 24,8%
Число Т 1 947 037 24,7%
Число G 1 990 105 25,2%
Число С 1 998 686 25,3%
Число GAATTC 1133 -

Исходя из этих данных, можно определить ожидаемое число сайтов, умножив длину генома на частоты букв в мотиве. Оно равно 1887,6. Для определения достоверности отличия был проведён Z-тест. В качестве нулевой гипотезы принято утверждение о том, что среднее число сайтов GAATTC равно 1887,6 (ожидаемому). По результатам Z-теста p-value = 7.89782e-79. Это говорит о том, что имеющееся отличие имеет статистическую значимость, и нулевая гипотеза может быть отвергнута.

Литература:

  1. Genetics A Conceptual Approach, Benjamin Pierce (Baylor U.), Ch.13, P.363.
  2. Курс молекулярной биологии на ФББ.
  3. B.Y. Chang, Y.T. Shyu, R.H. Doi, The interaction between Bacillus subtilis sigma-A (sigma A) factor and RNA polymerase with promoters, Biochimie, 1992.
  4. Adams B., Fodor A., Koppenhöfer H., Stackebrandt E., Stock S.P., Klein M., Reprint of “Biodiversity and systematics of nematode–bacterium entomopathogens” [Biol. Control 37 (2006) 32–49], Biological Control, 2006.
  5. Kozak M., An analysis of 5'-noncoding sequences from 699 vertebrate messenger RNAs, Nucleic acids research, 1987.