Суздаленко, семестр 4

Практикум 6

Задание 1

Сигнал полиаденилирования (AAUAAA для человека) - сайт связывания белка CPSF, который разрезает 3'-конец транскрипта для его дальнейшего полиаденилирования. Специфичность связывания с РНК значимо увеличивается благодаря белкам CstF и CFI. CstF связывается с GU-богатым участком РНК ниже сайта связывания CPSF, а CFI с другим специальным сайтом на РНК (UGUAA для млекопитающих). Сигнал полиаденилирования высокоэффективен, поскольку необходим для начала трансляции большинства мРНК.

Источники

1.Beaudoing E., Freier S., Wyatt J. R., Claverie J. M., Gautheret D. Patterns of variant polyadenylation signal usage in human genes. (англ.) // Genome research. — 2000. — Vol. 10, no. 7. — P. 1001—1010.

2.Brown K. M., Gilmartin G. M. A mechanism for the regulation of pre-mRNA 3' processing by human cleavage factor Im.// Molecular cell. — 2003. — Vol. 12, no. 6. — P. 1467—1476.

3.Википедия

Задание 2

Для выполнения задания 2 был использованскриптМаксима Смирнова для выбора генов из человеческого генома и построения PWM. Для построения позиционной матрицы использовались участки хромосом длиной 13 нуклеотидов - 7 нуклеотидов до ATG, сама ATG и 3 нуклеотида после старт-кодона. Среднее значение веса для положительного контроля равняется 5.242721611434907, для отрицательного - 1.490001599219049, при этом они достовено отличаются (p-value = 8.70161332031355e-12)

Матрица PWM
letter12345678910111213
A-2.29-0.37-0.650.11-0.82-0.5-0.821.22-4.08-4.08-0.37-0.5-1.31
T0.37-0.5-1.31-0.37-1.31-0.82-1.68-4.081.22-4.08-1.04-1.04-0.82
G0.310.310.740.110.850.540.11-3.72-3.721.580.990.390.94
C0.310.540.540.210.470.541.08-3.72-3.72-3.72-0.280.740.31

Задание 3

Для построения матрицы информационного содержания IC(b,j) пользовались формулой N(b,j)/Nw(b,j), где w(b,j)=ln(N(b,j)/p(b)) это значение PWM без учета псевдоотсчетов.

Матрица IC
letter123456 78910111213
A-0.09-0.11-0.150.04-0.15-0.13 -0.151.7600-0.11-0.13-0.15
T0.22-0.13-0.15-0.11-0.15-0.15 -0.1301.760-0.16-0.16-0.15
G0.120.120.450.030.580.27 0.03002.290.780.160.71
C0.120.270.270.070.220.27 0.93000-0.070.450.12
LOGO информационного содержания последовательности

Как видно на графике, значимого сигнала у последовательности ATG не наблюдается