РНК-полимераза прокариот состоит из нескольких субъединиц, среди которых важную роль играет сигма-фактор (σ-фактор), обеспечивающий специфическое связывание полимеразы с промотором. Для инициации транскрипции требуются специфические нуклеотидные консенсусные последовательности, которые сообщают σ-фактору, где именно связываться с ДНК. σ-фактор распознаёт последовательности в областях "-35" и "-10"; в области "-10" имеет консенсусную последовательность TATAAT, а область "-35" — TTGACA[1]. В данном практикуме мы рассмотрим сигнал TTGACA.
Сигнал представляет собой последовательность TTGACA, узнаваемую сигма-фактором σ70. После узнавания, фактор связывается с ДНК и собирается в комплекс с остальными субъединицами РНК-полимеразы (холофермент). Затем закрытый комплекс переходит в открытый комплекс, и при переходе к элонгации транскрипции, сигма-фактор диссоциирует от полимеразы[2]. Эффективность связывания σ-фактора с сигналом варьирует у разных видов, и, с учётом вариабельности сигнала, можно сделать вывод, что эффективность в целом низкая[1][3].
Для работы я выбрал окрестность ATG кодона в геноме человека — последовательность Козак. При выполнении задания использовался скрипт, основанный на скрипте Георгия Муравьёва. После обработки таблицы генов человека я получил файлы с обучающей выборкой, тестовой выборкой и негативным контролем. Для обучающей выборки была построена позиционная весовая матрица (Таблица 1):
letter | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
A | -0.27 | -0.45 | -0.16 | -0.21 | 0.31 | 0.04 | -0.32 | 1.22 | -6.60 | -6.60 | -0.14 | -0.01 | -0.55 |
T | -0.35 | -0.43 | -0.44 | -0.80 | -1.52 | -0.74 | -1.18 | -6.60 | 1.22 | -6.60 | -0.60 | -0.50 | -0.30 |
G | 0.11 | 0.66 | 0.25 | 0.25 | 0.66 | -0.07 | 0.25 | -6.24 | -6.24 | 1.58 | 0.77 | -0.03 | 0.50 |
C | 0.51 | 0.09 | 0.38 | 0.58 | -0.41 | 0.57 | 0.75 | -6.24 | -6.24 | -6.24 | -0.39 | 0.48 | 0.29 |
По вышеприведённым данным были построены гистограммы распределений для разных выборок. Можно заметить, что распределение негативного контроля сильно смещено влево по отношению к распределениям тестового и обучающего наборов. В качестве порогового значения между положительным и отрицательным контролем выбрано значение веса 4. С учётом этого построена проверочная таблица (Таблица 2):
Обучение | Положительный контроль | Отрицательный контроль | |
Cигнал(+) | 372 (74.4%) | 392 (78.4%) | 148 (29.6%) |
Cигнал(-) | 128 (25.6%) | 108 (21.6%) | 352 (70.4%) |
Судя по таблице, выбранное пороговое значение достаточно хорошо отражает разницу между положительным и отрицательным контролем.
Для обучающей выборки была построена матрица информационного содержания (Таблица 3):
letter | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
A | -0.09 | -0.12 | -0.06 | -0.07 | 0.18 | 0.02 | -0.10 | 1.76 | 0.00 | 0.00 | -0.05 | -0.00 | -0.14 |
T | -0.10 | -0.12 | -0.12 | -0.15 | -0.14 | -0.15 | -0.15 | 0.00 | 1.76 | 0.00 | -0.14 | -0.13 | -0.10 |
G | 0.03 | 0.38 | 0.09 | 0.09 | 0.38 | -0.02 | 0.10 | 0.00 | 0.00 | 2.29 | 0.50 | -0.01 | 0.24 |
C | 0.25 | 0.03 | 0.16 | 0.31 | -0.08 | 0.30 | 0.46 | 0.00 | 0.00 | 0.00 | -0.08 | 0.23 | 0.11 |
IC(j) | 0.09 | 0.16 | 0.07 | 0.17 | 0.34 | 0.15 | 0.31 | 1.76 | 1.76 | 2.29 | 0.22 | 0.09 | 0.13 |
IC выравнивания равно 7,54. Для обучающего набора последовательностей была построена LOGO-диаграмма с помощью сервиса WebLOGO. Особо консервативных участков перед старт-кодоном не наблюдается; только А в [-3] позиции и С в [-1] позиции. В целом, заметно соответствие полученного результата консенсусу GCCRCCATG[4].
В качестве генома была взята последовательность хромосомы Escherichia coli, штамм O157:H7 str. Sakai. Для обработки последовательности использовался скрипт; по результатам его работы составлена таблица (Таблица 4):
Длина одной последовательности | 7 890 332 | 100% |
Число А | 1 954 504 | 24,8% |
Число Т | 1 947 037 | 24,7% |
Число G | 1 990 105 | 25,2% |
Число С | 1 998 686 | 25,3% |
Число GAATTC | 1133 | - |
Исходя из этих данных, можно определить ожидаемое число сайтов, умножив длину генома на частоты букв в мотиве. Оно равно 1887,6. Для определения достоверности отличия был проведён Z-тест. В качестве нулевой гипотезы принято утверждение о том, что среднее число сайтов GAATTC равно 1887,6 (ожидаемому). По результатам Z-теста p-value = 7.89782e-79. Это говорит о том, что имеющееся отличие имеет статистическую значимость, и нулевая гипотеза может быть отвергнута.