Задание 1. Сигнал полиаденилирования

Сигнал полиаденилирования (AAUAAA для человека) - сайт связывания белка CPSF, который разрезает 3'-конец транскрипта для его дальнейшего полиаденилирования [1]. Специфичность связывания с РНК значимо увеличивается благодаря белкам CstF и CFI. CstF связывается с GU-богатым участком РНК ниже сайта связывания CPSF, а CFI с другим специальным сайтом на РНК (UGUAA для млекопитающих). Сигнал полиаденилирования высокоэффективен, поскольку необходим для начала трансляции большинства мРНК [2].

Задание 2. Построение PWM для последовательности Козак H.sapiens

В рамках этого задания я работаю с последовательностью Козак - сигналом старта транскрипции. Был использован скрипт однокурсника Георгия Муравьева для выбора генов из человеческого генома и построения матрицы PWM (затем IC). Для построения позиционной матрицы использовались участки хромосом длиной 13 нуклеотидов: 7 нуклеотидов до ATG, сама ATG и 3 нуклеотида после старт-кодона.

В результате работы скрипта получено 500 последовательностей для обучения, 500 для тестирования и 500 последовательностей отрицательного контроля. На материале обучения была построена позиционная весовая матрица с псевдокаунтами (PWM)

letter 1 2 3 4 5 6 7 8 9 10 11 12 13
A -0.40 -0.35 -0.34 -0.19 0.35 0.12 -0.48 1.22 -6.60 -6.60 -0.26 -0.07 -0.61
T -0.32 -0.56 -0.21 -0.85 -1.35 -0.53 -1.35 -6.60 1.22 -6.60 -0.91 -0.39 -0.39
G 0.37 0.61 0.18 0.24 0.56 -0.23 0.33 -6.24 -6.24 1.58 0.86 -0.06 0.66
C 0.35 0.19 0.40 0.59 -0.34 0.48 0.80 -6.24 -6.24 -6.24 -0.19 0.49 0.17
Таблица 1. Позиционная весовая матрица

На основе PWM таблицы были посчитаны веса всех последовательностей и построена гисторгамма распределения.(Рис 1)

Письма мастера дзен Рис1.Гистограмма распредления весов последовательностей

По гистограмме видими, что веса последовательностей из материалов обучения и тестирования имеют схожее распределения. И ожидаемо веса последовательностей негативного контроля сдвинуты влево. Основываясь на гистограмме порогом веса было выбрано 5 т.к при этом значении снижается число последовательностей отрицательного контроля и повышается для других. Однако эти распределения все-таки пересекаются и ошибка первого рода составила 14.2%, ошибка второго рода 45.6%

Обучение Положительный контроль Отрицательный контроль
Cигнал(+) 306 (61.2%) 272 (54.4%) 71 (14.2%)
Cигнал(-) 194 (38.8%) 228 (45.6%) 429 (85.8%)
Таблица 2. Результаты проверки находок
Затем была получена таблица информационного содержания (Таб 3) для выравнивания из материала обучения и было построено LOGO.(Рис 2)
letter 1 2 3 4 5 6 7 8 9 10 11 12 13
A -0.11 -0.10 -0.10 -0.07 0.21 0.06 -0.13 1.76 0.00 0.00 -0.08 -0.03 -0.14
T -0.10 -0.14 -0.07 -0.15 -0.15 -0.13 -0.15 0.00 1.76 0.00 -0.16 -0.11 -0.11
G 0.16 0.33 0.06 0.09 0.29 -0.06 0.13 0.00 0.00 2.29 0.60 -0.02 0.38
C 0.15 0.07 0.18 0.32 -0.07 0.23 0.53 0.00 0.00 0.00 -0.05 0.24 0.06
IC(j) 0.09 0.16 0.06 0.18 0.28 0.10 0.39 1.76 1.76 2.29 0.31 0.08 0.19
Таблица 3.Матрица информационного содержания.
Письма мастера дзен

Рис2. Logo для последовательности Козак в геноме человека

Задание 3. Подсчет числа сайтов GAATTC в полном геноме одного штамма E.coli

С помощью скрипта однокурсника Георгия Муравьева было посчитано количество GAATTC в геноме Escherichia coli str. K-12 substr. MG1655. В результате было найдено 646 GAATTC при том, что ожидаемое число - 1097. Данное отличие является статистически важным, так как p-value составил 1.77⋅10^-49

Литература

[1].Beaudoing E., Freier S., Wyatt J. R., Claverie J. M., Gautheret D. Patterns of variant polyadenylation signal usage in human genes. (англ.) // Genome research. — 2000. — Vol. 10, no. 7. — P. 1001—1010.

[2].Brown K. M., Gilmartin G. M. A mechanism for the regulation of pre-mRNA 3' processing by human cleavage factor Im.// Molecular cell. — 2003. — Vol. 12, no. 6. — P. 1467—1476.