RSS (recombination signal sequences) — это сигнальные последовательности рекомбинации, состоящие из очень консервативного гептамера и нонамера и менее консервативной последовательности между ними. RSS фланкирует все генные сегменты локусов рецепторов антигена и направляет ферментный комплекс (RAG1/RAG2) к сегментам генов V, D, J, которые будут подвергаться рекомбинации.RSS играет ключевую роль в создании разнообразия антител и T-клеточных рецепторов. Сила сигнала большая.
Источник: V(D)J recombination: molecular biology and regulation. D. G. Schatz, M. A. Oettinger, M. S. Schlissel
В данном задани в качестве сигнала я выбрал последовательность Шайна-Дальгарно бактерии Bacillus Subtilis DSM 10. Скачал геном и хромосомную таблицу Bacillus Subtilis. В данном практикуме воспользовался скриптом, любезно предоставленым старшим курсом. Получил последовательности длиной 20 п.н. перед генами - материал тестирования. Последовательность Шайна-Дальгарно у Bacillus Subtilis - AGGAGG. Для получения обучающей выборки из полученных последовательностей были отобраны те, у которых длина 6 п.н. и имеют не более одного отличия с последовательностью Шайна-Дальгарно. В качестве материала негативного контроля взял последовательности из 6 букв на тех же участках обучающей выборки, но со сдвигом на 100 н.т.. На основе обучающей выборки была построена PWM матрица. Значение псевдокаунта взял равным 0.1.
Таблица 1. Матрица PWM для последовательности Шайна-Дальгарно бактерии Bacillus Subtilis
Баз. частоты | 1 | 2 | 3 | 4 | 5 | 6 | |
---|---|---|---|---|---|---|---|
A | 0.282 | 1.09 | -1.61 | -1.81 | 1.15 | -1.63 | -0,94 |
G | 0.217 | -1.21 | 1.43 | 1.46 | -1.13 | 1.42 | 1.27 |
T | 0.283 | -1.46 | -2.29 | -3.31 | -2.27 | -2.14 | -1.35 |
C | 0.218 | -1.96 | -3.00 | -2.83 | -2.74 | -3.11 | -1.65 |
По полученной PWM матрице посчитаем веса для трех выборок.
На основе приведенных гистограмм был выбран порог веса 2.7 и для него посчитана следующая таблица с результатами поиска сигналов в последовательностях из разных выборок:
Таблица 2. Результаты поиска в разных выборках последовательности Шайна-Дальгарно бактерии Bacillus Subtilis
Обучающая выборка | Тестовая выборка | Негативная выборка | |
---|---|---|---|
Сигнал(+) | 3503 | 4208 | 441 |
Сигнал(-) | 0 | 58987 | 62754 |
Таким образом, отработанный подход позволяет довольно эффективно отличать выборки с сигналами от выборок без сигнала. Вероятно он будет работать не только для последовательностей Шайна-Дальгарно разных бактерий, но и для других консервативных сигналов.
Информационное содержание IC выравнивания равно 8.1.
С помощью сервиса WebLOGO 3 построил LOGO
Таблица 3. Матрица информационного содержания для последовательности Шайна-Дальгарно бактерии Bacillus Subtilis
А затем LOGO был построен с помощью сервиса WebLOGO 3:
Получилось довольно хорошие значение IC и LOGO, что говорит о силе сигнала.