Чтобы построить позиционную весовую матрицу для последовательности Козак человека, были выбраны 100 случайных генов, для которых известны координаты стартовых ATG. Для этого мною был написан скрипт positive.py, который принимает на вход таблицу с информацией о генах человека human-genes.tsv и создает два файла:
После этого была создана позиционная весовая матрица (таблица 1) и с помощью данной матрицы вычислены веса последовательностей каждой выборки (GC=41%, pseudocounts=0.1). Гистограммы распределения весов последовательностей представлены на рисунке 3 (Для осуществления данных действий также был мною написан скрипт pwm_build.py). По данным гистограммам можно примерно оценить порог веса при котором мы считаем что последовательность содержит последовательность Козак. Пусть пороговое значение будет равно 4-м.
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0.249 | -0.612 | -0.612 | -0.017 | 0.4 | 0.081 | -0.899 | 1.218 | -5.691 | -5.691 | -0.389 | 0.112 | -0.166 |
C | 0.238 | 0.198 | 0.535 | 0.59 | -0.623 | 0.414 | 0.668 | -5.327 | -5.327 | -5.327 | -0.13 | 0.668 | -0.025 |
G | 0.563 | 0.764 | 0.158 | 0.158 | 0.506 | -0.187 | 0.476 | -5.327 | -5.327 | 1.582 | 0.931 | -0.455 | 0.668 |
T | -0.676 | -0.676 | -0.166 | -1.082 | -0.986 | -0.389 | -0.676 | -5.691 | 1.218 | -5.691 | -1.082 | -0.745 | -0.676 |
Обучающая выборка | Тестовая выборка | Выборка негативного контроля | |
---|---|---|---|
Cигнал(+) | 77 | 132 | 52 |
Cигнал(-) | 23 | 68 | 148 |
В данном разделе с помощью обучающей выборки и скрипта ic_builder.py была построена матрица информационного содержания последовательности Козак (таблица 3). Также с помощью сервиса WebLogo3 был построен Logo (рисунок 4). Из схемы видно, что позиции 2,4,5,7-12, имеют значимый информационный вес, т.е. есть основания считать, что данные выравненные последовательности обладают специфической функцией.
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0.083 | -0.141 | -0.141 | -0.007 | 0.254 | 0.038 | -0.156 | 1.761 | 0.0 | 0.0 | -0.112 | 0.053 | -0.06 |
C | 0.089 | 0.072 | 0.27 | 0.315 | -0.099 | 0.185 | 0.386 | 0.0 | 0.0 | 0.0 | -0.034 | 0.386 | -0.007 |
G | 0.292 | 0.485 | 0.055 | 0.055 | 0.248 | -0.046 | 0.227 | 0.0 | 0.0 | 2.286 | 0.698 | -0.085 | 0.386 |
T | -0.146 | -0.146 | -0.06 | -0.156 | -0.157 | -0.112 | -0.146 | 0.0 | 1.761 | 0.0 | -0.156 | -0.151 | -0.146 |
IC(j) | 0.152 | 0.270 | 0.124 | 0.207 | 0.246 | 0.065 | 0.311 | 1.761 | 1.761 | 2.286 | 0.396 | 0.203 | 0.173 |
Для выполнения этого задания был использован геном штама E.coli rl0044. С помощью скрипта было определено, что в геноме e.coli 712 сайтов GAATTC, а длина всего генома - 5256017 нуклеотидов. Также были определены частоты для каждого нуклеотида. Для получения вероятности появления данного сайта в геноме, частоты нуклеотидов входящих в GAATTC были перемножены между собой - 0.000237. Помножив вероятность на длину генома, получим математическое ожидание количества сайтов равное 1244.77, что почти в два раза больше реального количества сайтов в последовательности. Для оценки достоверности данного отличия, был проведен обычный односторонний Z-test. Можно считать что количество данных сайтов в геноме имеет биномиальное распределение. В виду большой длины генома можно считать что случайная величина (количество сайтов в геноме) имеет нормальное распределение (по центральной предельной теореме) с математическим ожиданием равным 1224.77 и среднеквадратичным отклонением равным 35.3. Примем за нулевую гипотезу то что среднее количество данных сайтов в геноме равно математическому ожиданию, а за альтернативную гипотезу, то что среднее меньше математического ожидания. Z-test показал p-value равное 8.48*10^-52. При таком маленьком значении мы можем отвергнуть нулевую гипотезу и принять альтернативную при любом адекватном уровне значимости. Это говорит нам о том, что отличие достоверно