Сигнальные полседовательности рекомбинации (recombination signal sequence, RSS) - короткие последовательности ДНК, участвующие в V(D)J-рекомбинации. Они представляют из себя гептамеры с консенсусной последовательностью — 5'-CACAGTG-3' отделенные 12-ю или 23-мя нуклеотидами от консервативной последовательности — 5'-ACAAAAACC-3' из девяти нуклеотидов (нонамер). Данные последовательности располагаются на границах V-, D- и J-сегментов и узнаются белками RAG1 и RAG2, которые после первичного узнавания последовательности нонамера связываются с гептамером, где вносится разрыв, сближаются друг с другом и вырезают фрагмент ДНК между сегментами. Для правильной последовательности рекомбинации существует «правило рекомбинации 12/23», заключающееся в невозможности рекомбинации между сигнальными полседовательностями со спейсерами разной длины.
Источники:
Для получения позиционно-весовой матрицы для последовательности Козак человека случайным образом были отобраны 100 генов со случайно выбранных хромосом. Принадлежность гена к прямой или обратной цепи тоже выбиралась случайным образом. Затем были вырезаны необходимые участки длиной 13 нуклеотидов (7 н. до ATG, сам ATG и 3 н. после), и из полученных 100 последовательностей 40 были отобраны для построения матрицы и 60 для ее оценки. Для построения матрицы для человка был взят GC-состав равный 40.2. Для посчета весов матрицы использовалась следующая формула:
$W(b,j) = ln(\frac{\frac{N(b,j)+\epsilon(b)}{N+\epsilon}}{f(b)_{expected}}) $ где $\epsilon(b)=0.25, \epsilon = 1$ - псевдокаунты
Для выполнения этого задания был создан следующий скрипт, который приниает на вход файл human-genes.tsv с описанием генов и создает следующие файлы:
Табл.1. Матрица PWM
Основание | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0.1790 | -0.8623 | -0.1790 | -0.2832 | 0.2232 | -0.1790 | -0.5314 | 1.1999 | -4.7941 | -4.7941 | 0.0017 | -0.1781 | -0.8623 |
T | -0.1790 | -0.2832 | -0.6832 | -1.3601 | -1.0805 | -0.3997 | -4.7941 | -4.7941 | 1.1999 | -4.7941 | -0.3997 | -0.8623 | 0.0811 |
G | 0.1139 | 0.5518 | 0.3126 | 0.1139 | 0.6844 | -0.2861 | 0.5518 | -4.3970 | -4.3970 | 1.5970 | 0.6203 | 0.3126 | 0.5518 |
C | 0.3126 | 0.3988 | 0.4782 | 0.8553 | -0.4651 | 0.6844 | 0.8553 | -4.3970 | -4.3970 | -4.3970 | -0.4651 | 0.5518 | -0.0025 |
Средние значения весов для положительного и отрицательного контролей составили 5.12 и 2.04 соответсвенно. Значение p-value составило 2.77e-11, благодаря чему можно делать вывод о значимости различий между средними.
Основание | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0,0646 | -0,1573 | -0,0646 | -0,0923 | 0,1225 | -0,0646 | -0,1352 | 1,7418 | 0,0000 | 0,0000 | 0,0014 | -0,0646 | -0,1573 |
T | -0,0646 | -0,0923 | -0,1493 | -0,1496 | -0,1580 | -0,1160 | 0,0000 | 0,0000 | 1,7418 | 0,0000 | -0,1160 | -0,1573 | 0,0391 |
G | 0,0366 | 0,2801 | 0,1244 | 0,0366 | 0,3971 | -0,0633 | 0,2801 | 0,0000 | 0,0000 | 2,3147 | 0,3374 | 0,1244 | 0,2801 |
C | 0,1244 | 0,1733 | 0,2253 | 0,5893 | -0,0857 | 0,3971 | 0,5893 | 0,0000 | 0,0000 | 0,0000 | -0,0857 | 0,2801 | -0,0014 |
Информационное содержание сигнала согласно построенной матрице IC сотставляет 8.20 из максимального 26.0. По значениям IC на LOGO (Рис.2) можно видеть, что сигнал сильнее всего в близи от ATG. Однако в целом наблюдаемый сигнал можно охарактеризовать как слабый.