Сигналы и мотивы
Сигнал PAM последовательность in CRISPR
Последовательность PAM представляют собой короткую последовательность, которая помечают редактируемые участки ДНК и служит сигналом связывания для конкретных нуклеаз CRISPR-Cas. PAM необходим нуклеазе Cas для разрезания и обычно находится на 3-4 нуклеотида далее от сайта разреза. Наиболее часто используемый белок Cas9 из Streptococcus pyogenes распознает последовательность PAM 5'-NGG-3' (где «N» может быть любым нуклеотидным основанием). Если PAM участок присутствует в последовательности, то эффективность сигнала будет высокой.
Источники:
- https://www.sciencedirect.com/science/article/pii/S1096717620301178
- https://www.synthego.com/guide/how-to-use-crispr/pam-sequence
PWM последовательности Козак человека
В этом задании нужно исследовать последовательность Козак и убедиться в ее специфичности. Для выполнения задания был использован скрипт Максима Смирнова, за что ему большое спасибо. Этот скрипт выбирает 100 случайных геннов человека и вырезает 7 нуклеотидов до старта трансляции ATG + ATG + 3 нук. после ATG. Результаты: kozak-learn.fasta (n = 40), kozak-test.fasta (n = 60).
N | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
A | -2,29 | -0,37 | -0,65 | 0,11 | -0,82 | -0,50 | -0,82 | 1,22 | -4,08 | -4,08 | -0,37 | -0,50 | -1,31 |
T | 0,37 | -0,50 | -1,31 | -0,37 | -1,31 | -0,82 | -1,68 | -4,08 | 1,22 | -4,08 | -1,04 | -1,04 | -0,82 |
G | 0,31 | 0,31 | 0,74 | 0,11 | 0,85 | 0,54 | 0,11 | -3,72 | -3,72 | 1,58 | 0,99 | 0,39 | 0,94 |
C | 0,31 | 0,54 | 0,54 | 0,21 | 0,47 | 0,54 | 1,08 | -3,72 | -3,72 | -3,72 | -0,28 | 0,74 | 0,31 |
Последовательности из тестового файла были использованы для положительного контроля. Для отрицательного контроля использовались содержащие ATG. С помощью скрипта были получены positive control mean score: 5.242721611434907, negative control mean score: 1.5588667432447532, p-value: 2.302045442661419e-10 и ic:9.784051189548972. Так как положительный контроль больше, чем отрицательный контроль, можно сделать вывод, что стартовый кодон Козак специфичен.
Logo
Далее было сделано вычисление информационного содержания последовательности Козак. Для чего была построена матрица информационного содержания:
N | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
A | -0.10 | -0.11 | -0.14 | 0.05 | -0.15 | -0.13 | -0.15 | 1.78 | 0 | 0 | -0.11 | -0.13 | -0.15 |
T | 0.23 | -0.13 | -0.15 | -0.11 | -0.15 | -0.15 | -0.13 | 0 | 1.78 | 0 | -0.16 | -0.16 | -0.15 |
G | 0.13 | 0.13 | 0.46 | 0.04 | 0.59 | 0.28 | 0.04 | 0 | 0 | 2.30 | 0.80 | 0.17 | 0.73 |
C | 0.13 | 0.28 | 0.28 | 0.08 | 0.23 | 0.28 | 0.94 | 0 | 0 | 0 | -0.06 | 0.46 | 0.13 |
С помощью программы WebLOGO3 была создана визуализация информационного содержания последовательности.