Сигналы и мотивы

Задание 1. Сигнальные последовательности рекомбинации

Сигнальные полседовательности рекомбинации (recombination signal sequence, RSS) - короткие последовательности ДНК, участвующие в V(D)J-рекомбинации. Они представляют из себя гептамеры с консенсусной последовательностью — 5'-CACAGTG-3' отделенные 12-ю или 23-мя нуклеотидами от консервативной последовательности — 5'-ACAAAAACC-3' из девяти нуклеотидов (нонамер). Данные последовательности располагаются на границах V-, D- и J-сегментов и узнаются белками RAG1 и RAG2, которые после первичного узнавания последовательности нонамера связываются с гептамером, где вносится разрыв, сближаются друг с другом и вырезают фрагмент ДНК между сегментами. Для правильной последовательности рекомбинации существует «правило рекомбинации 12/23», заключающееся в невозможности рекомбинации между сигнальными полседовательностями со спейсерами разной длины.

Источники:

Задание 2. Позиционная весовая матрица последовательности Козак человека

Для получения позиционно-весовой матрицы для последовательности Козак человека случайным образом были отобраны 100 генов со случайно выбранных хромосом. Принадлежность гена к прямой или обратной цепи тоже выбиралась случайным образом. Затем были вырезаны необходимые участки длиной 13 нуклеотидов (7 н. до ATG, сам ATG и 3 н. после), и из полученных 100 последовательностей 40 были отобраны для построения матрицы и 60 для ее оценки. Для построения матрицы для человка был взят GC-состав равный 40.2. Для посчета весов матрицы использовалась следующая формула:

$W(b,j) = ln(\frac{\frac{N(b,j)+\epsilon(b)}{N+\epsilon}}{f(b)_{expected}}) $ где $\epsilon(b)=0.25, \epsilon = 1$ - псевдокаунты

Для выполнения этого задания был создан следующий скрипт, который приниает на вход файл human-genes.tsv с описанием генов и создает следующие файлы:

Табл.1. Матрица PWM

Основание 1 2 3 4 5 6 7 8 9 10 11 12 13
A -0.1790 -0.8623 -0.1790 -0.2832 0.2232 -0.1790 -0.5314 1.1999 -4.7941 -4.7941 0.0017 -0.1781 -0.8623
T -0.1790 -0.2832 -0.6832 -1.3601 -1.0805 -0.3997 -4.7941 -4.7941 1.1999 -4.7941 -0.3997 -0.8623 0.0811
G 0.1139 0.5518 0.3126 0.1139 0.6844 -0.2861 0.5518 -4.3970 -4.3970 1.5970 0.6203 0.3126 0.5518
C 0.3126 0.3988 0.4782 0.8553 -0.4651 0.6844 0.8553 -4.3970 -4.3970 -4.3970 -0.4651 0.5518 -0.0025

Средние значения весов для положительного и отрицательного контролей составили 5.12 и 2.04 соответсвенно. Значение p-value составило 2.77e-11, благодаря чему можно делать вывод о значимости различий между средними.

Рис.1. Распределения весов для полжительного (+) и отрицательного (-) контролей.

Задание 3. IC и LOGO.

Основание 1 2 3 4 5 6 7 8 9 10 11 12 13
A -0,0646 -0,1573 -0,0646 -0,0923 0,1225 -0,0646 -0,1352 1,7418 0,0000 0,0000 0,0014 -0,0646 -0,1573
T -0,0646 -0,0923 -0,1493 -0,1496 -0,1580 -0,1160 0,0000 0,0000 1,7418 0,0000 -0,1160 -0,1573 0,0391
G 0,0366 0,2801 0,1244 0,0366 0,3971 -0,0633 0,2801 0,0000 0,0000 2,3147 0,3374 0,1244 0,2801
C 0,1244 0,1733 0,2253 0,5893 -0,0857 0,3971 0,5893 0,0000 0,0000 0,0000 -0,0857 0,2801 -0,0014

Информационное содержание сигнала согласно построенной матрице IC сотставляет 8.20 из максимального 26.0. По значениям IC на LOGO (Рис.2) можно видеть, что сигнал сильнее всего в близи от ATG. Однако в целом наблюдаемый сигнал можно охарактеризовать как слабый.

Рис.2. Информационное содержание позиций в последовательности Козак человека.