Задание 1. Сигнал полиаденилирования
Задание 2. Построение PWM для последовательности Козак H.sapiens
В рамках этого задания я работаю с последовательностью Козак - сигналом старта транскрипции. Был использован скрипт однокурсника Георгия Муравьева для выбора генов из человеческого генома и построения матрицы PWM (затем IC). Для построения позиционной матрицы использовались участки хромосом длиной 13 нуклеотидов: 7 нуклеотидов до ATG, сама ATG и 3 нуклеотида после старт-кодона.
В результате работы скрипта получено 500 последовательностей для обучения, 500 для тестирования и 500 последовательностей отрицательного контроля. На материале обучения была построена позиционная весовая матрица с псевдокаунтами (PWM)
letter | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0.40 | -0.35 | -0.34 | -0.19 | 0.35 | 0.12 | -0.48 | 1.22 | -6.60 | -6.60 | -0.26 | -0.07 | -0.61 |
T | -0.32 | -0.56 | -0.21 | -0.85 | -1.35 | -0.53 | -1.35 | -6.60 | 1.22 | -6.60 | -0.91 | -0.39 | -0.39 |
G | 0.37 | 0.61 | 0.18 | 0.24 | 0.56 | -0.23 | 0.33 | -6.24 | -6.24 | 1.58 | 0.86 | -0.06 | 0.66 |
C | 0.35 | 0.19 | 0.40 | 0.59 | -0.34 | 0.48 | 0.80 | -6.24 | -6.24 | -6.24 | -0.19 | 0.49 | 0.17 |
На основе PWM таблицы были посчитаны веса всех последовательностей и построена гисторгамма распределения.(Рис 1)

По гистограмме видими, что веса последовательностей из материалов обучения и тестирования имеют схожее распределения. И ожидаемо веса последовательностей негативного контроля сдвинуты влево. Основываясь на гистограмме порогом веса было выбрано 5 т.к при этом значении снижается число последовательностей отрицательного контроля и повышается для других. Однако эти распределения все-таки пересекаются и ошибка первого рода составила 14.2%, ошибка второго рода 45.6%
Обучение | Положительный контроль | Отрицательный контроль | |
---|---|---|---|
Cигнал(+) | 306 (61.2%) | 272 (54.4%) | 71 (14.2%) |
Cигнал(-) | 194 (38.8%) | 228 (45.6%) | 429 (85.8%) |
letter | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0.11 | -0.10 | -0.10 | -0.07 | 0.21 | 0.06 | -0.13 | 1.76 | 0.00 | 0.00 | -0.08 | -0.03 | -0.14 |
T | -0.10 | -0.14 | -0.07 | -0.15 | -0.15 | -0.13 | -0.15 | 0.00 | 1.76 | 0.00 | -0.16 | -0.11 | -0.11 |
G | 0.16 | 0.33 | 0.06 | 0.09 | 0.29 | -0.06 | 0.13 | 0.00 | 0.00 | 2.29 | 0.60 | -0.02 | 0.38 |
C | 0.15 | 0.07 | 0.18 | 0.32 | -0.07 | 0.23 | 0.53 | 0.00 | 0.00 | 0.00 | -0.05 | 0.24 | 0.06 |
IC(j) | 0.09 | 0.16 | 0.06 | 0.18 | 0.28 | 0.10 | 0.39 | 1.76 | 1.76 | 2.29 | 0.31 | 0.08 | 0.19 |

Задание 3. Подсчет числа сайтов GAATTC в полном геноме одного штамма E.coli
С помощью скрипта однокурсника Георгия Муравьева было посчитано количество GAATTC в геноме Escherichia coli str. K-12 substr. MG1655. В результате было найдено 646 GAATTC при том, что ожидаемое число - 1097. Данное отличие является статистически важным, так как p-value составил 1.77⋅10^-49
Литература
[1].Beaudoing E., Freier S., Wyatt J. R., Claverie J. M., Gautheret D. Patterns of variant polyadenylation signal usage in human genes. (англ.) // Genome research. — 2000. — Vol. 10, no. 7. — P. 1001—1010.
[2].Brown K. M., Gilmartin G. M. A mechanism for the regulation of pre-mRNA 3' processing by human cleavage factor Im.// Molecular cell. — 2003. — Vol. 12, no. 6. — P. 1467—1476.