Secis - структурный элемент на мРНК, необходимый для вставки двадцтать первой аминокислоты - селеноцестеина.
У селеноцестеина есть своя тРНК (Sec-тРНК), узнает стоп-кодон UGA (как и фактор терминации RF2). Также известно, что Sec-тРНК не узнаётся EF-Tu (фактор элонгации пептидной связи). Поэтому сама по себе вставку селеноцестеина неэффективна, без дополнительного сигнала.
UGA узнаётся Sec-тРНК только в белках, в кот должен быть Sec. В их мРНК на нек расстоянии от нужного UGA (разное у разных организмов) есть шпилька Secis (“Selenocysteine insertion”), которая узнаётся SelB — аналогом EF-Tu. SelB приносит в P-сайт рибосомы только Sec-тРНК.
Источник: August Böck, Selenoprotein Synthesis, Encyclopedia of Biological Chemistry, Elsevier, 2004, Pages 17-21, https://doi.org/10.1016/B0-12-443710-9/00616-5.
Я исследовала последовательности Козак на Х хромосоме прямой цепи человека. Для этого я написала скрипт, который можно посмотреть по ссылке.
Кратко ход работы. Я отобрала 100 последовательностей, состоящих из "7нк + ATG + 3нк". 40 из них - отдала на train, 60 - на test. Для отрицательного контроля отобрала 60 последовательностей внутри генов на Х хромосоме. Построила для каждой PWM, посчитала IC для каждой последовательности.
Я работала с файлами с последовательностями: train test negative
PWM_TRAIN
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0.2916 | -0.4060 | -0.5352 | -0.2916 | 0.5861 | 0.1405 | -0.4060 | 1.1789 | -3.9025 | -3.9025 | 0.0678 | -0.1890 | -0.4060 |
T | -0.4060 | -0.8580 | -0.8580 | -0.5352 | -0.8580 | -1.0693 | -1.7053 | -3.9025 | 1.1789 | -3.9025 | -1.3376 | -0.6837 | -0.0959 |
G | 0.4114 | 0.4899 | 0.5627 | 0.2332 | 0.2332 | -0.1131 | 0.4114 | -3.4804 | -3.4804 | 1.6010 | 0.8634 | 0.2332 | 0.4114 |
C | 0.3263 | 0.5627 | 0.5627 | 0.5627 | -0.9154 | 0.6305 | 0.8101 | -3.4804 | -3.4804 | -3.4804 | -0.4359 | 0.5627 | 0.1305 |
img
1 - положительный контроль 2 - отрицательный контроль
Тестом Манна-Уитни было посчитано p-value. p-value = 2.1025e-05. Это говорит о том, что различие между двумя выборками значимое.
Значит, действительно можно предположить, что отобранные для положительного контроля последовательности -- содержат сигнал.
По построенной матрице IC получилось, что информационное содержание сигнала 7.9910 (максимум - 26.0).
IC
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0.003 | -0.087 | -0.151 | -0.104 | 0.554 | -0.048 | -0.104 | 1.727 | 0.000 | 0.000 | 0.022 | -0.026 | -0.157 |
T | -0.087 | -0.151 | -0.003 | -0.157 | -0.106 | -0.003 | -0.155 | 0.000 | 1.727 | 0.000 | -0.155 | -0.157 | 0.293 |
G | 0.028 | 0.490 | 0.055 | 0.055 | 0.028 | 0.003 | 0.055 | 0.000 | 0.000 | 2.336 | 0.365 | -0.099 | 0.115 |
C | 0.084 | -0.020 | 0.215 | 0.447 | -0.041 | 0.055 | 0.577 | 0.000 | 0.000 | 0.000 | 0.028 | 0.622 | -0.076 |
По значениям IC на LOGO видно, что самый сильный сигнал на АТГ и рядом.
LOGO
Результаты, полученные через LOGO и построение IC согласуются друг с другом. Можно сделать вывод, что найден сигнал, однако сила сигнала не высока.