Практикум 8. Сигналы в геноме. Примеры и поиск сигналов с известными последовательностями

Задание 1. Краткое описание сигнала

Название сигнала: Protospacer Adjacent Motif (PAM)

В чем состоит сигнал: сигнал состоит в наличии короткой последовательности ДНК (2-6 нуклеотидов), которая располагается перед участком ДНК, целевым для разрезания.

Кому адресован: сигнал адресован белку Cas9 в комплексе с crRNA или sgRNA в рамках системы CRISPR/Cas9.

Предназначение: Cas9 должен идентифицировать PAM и затем проверить, комплементарна ли последовательность ДНК, следующая за PAM, предоставленной crRNA. Если условия соблюдены, Cas9 разрезает ДНК в этом месте.

Сила сигнала: высокая, так как он обеспечивает точное и эффективное распознавание и разрезание ДНК, что критически важно как для бактериальной защиты от вирусов, так и для инструментов генной инженерии. Гипотеза о силе сигнала может заключаться в том, что в природных условиях эта система должна быть максимально эффективной, чтобы обеспечить выживание организма в условиях вирусной угрозы.

Примеры сигнала: 5'-NGG-3' для Streptococcus pyogenes и другие варианты для различных видов бактерий, каждый из которых адаптирован к специфической CRISPR системе данного организма

Рис.1. Вариации PAM в CRISPR/Cas

Источники:

Daniel Gleditzsch, Patrick Pausch..,"PAM identification by CRISPR-Cas effector complexes: diversified mechanisms and structures", doi: 10.1080/15476286.2018.1504546

Mateusz Legut, Zharko Daniloski, Xinhe Xue...,"High-Throughput Screens of PAM-Flexible Cas9 Variants for Gene Knockout and Transcriptional Modulation", doi: 10.1016/j.celrep.2020.02.010

Задание 2. PWM для последовательности Козак человека

Последовательность Козак служит сигналом для начала транскрипции ДНК. Для создания позиционной весовой матрицы этой последовательности был использован скрипт, любезно переданный старшекурсниками, который обрабатывал аннотированные данные о генах человека, представленные в виде таблицы. На выходе создается 3 файла: файл последовательностями для обучения, файл с последовательностями для тестирования и файл с последовательностями той же длины, где ATG является случайным, которые нужны для негативного контроля

Позиционная весовая матрица составляется по последовательности: NNNNNNNATGNN

Ссылка на полученную PWM матрицу.

Обучающая выборка

Тестовая выборка

Выборка отрицательного контроля

Рис.2. Распределение весов последовательностей

Распределения обучающей и тестовой выборки схожи, однако, распределение отрицательного контроля сдвинуто влево.

Проверка находок при пороге веса 5

Также была получена IC матрица

Рис.3.LOGO для последовательности Козак в геноме человека

На представленном лого видно, что старт-кодон полностью консервативен. В окружении этого кодона, в четырёх позициях перед ним, преимущественно находятся цитозин и гуанин. Однако никакие другие достаточно консервативные участки в этой последовательности выделить не удаётся.