Практикум 8.

Задание 1. Описание сигнала в геноме

RSS (recombination signal sequences) — это сигнальные последовательности рекомбинации, состоящие из очень консервативного гептамера и нонамера и менее консервативной последовательности между ними. RSS фланкирует все генные сегменты локусов рецепторов антигена и направляет ферментный комплекс (RAG1/RAG2) к сегментам генов V, D, J, которые будут подвергаться рекомбинации.RSS играет ключевую роль в создании разнообразия антител и T-клеточных рецепторов. Сила сигнала большая.

Источник: V(D)J recombination: molecular biology and regulation. D. G. Schatz, M. A. Oettinger, M. S. Schlissel

Задание 2. PWM для последовательностей Шайна-Дальгарно Bacillus Subtilis

В данном задани в качестве сигнала я выбрал последовательность Шайна-Дальгарно бактерии Bacillus Subtilis DSM 10. Скачал геном и хромосомную таблицу Bacillus Subtilis. В данном практикуме воспользовался скриптом, любезно предоставленым старшим курсом. Получил последовательности длиной 20 п.н. перед генами - материал тестирования. Последовательность Шайна-Дальгарно у Bacillus Subtilis - AGGAGG. Для получения обучающей выборки из полученных последовательностей были отобраны те, у которых длина 6 п.н. и имеют не более одного отличия с последовательностью Шайна-Дальгарно. В качестве материала негативного контроля взял последовательности из 6 букв на тех же участках обучающей выборки, но со сдвигом на 100 н.т.. На основе обучающей выборки была построена PWM матрица. Значение псевдокаунта взял равным 0.1.

Таблица 1. Матрица PWM для последовательности Шайна-Дальгарно бактерии Bacillus Subtilis

Баз. частоты 1 2 3 4 5 6
A 0.282 1.09 -1.61 -1.81 1.15 -1.63 -0,94
G 0.217 -1.21 1.43 1.46 -1.13 1.42 1.27
T 0.283 -1.46 -2.29 -3.31 -2.27 -2.14 -1.35
C 0.218 -1.96 -3.00 -2.83 -2.74 -3.11 -1.65

По полученной PWM матрице посчитаем веса для трех выборок.

Картинка 1
Рис.1. Гистограмма весов обучающей выборки
Картинка 2
Рис.2. Гистограмма весов тестовой выборки
Картинка 3
Рис.3. Гистограмма весов негативной выборки

На основе приведенных гистограмм был выбран порог веса 2.7 и для него посчитана следующая таблица с результатами поиска сигналов в последовательностях из разных выборок:

Таблица 2. Результаты поиска в разных выборках последовательности Шайна-Дальгарно бактерии Bacillus Subtilis

Обучающая выборка Тестовая выборка Негативная выборка
Сигнал(+) 3503 4208 441
Сигнал(-) 0 58987 62754

Таким образом, отработанный подход позволяет довольно эффективно отличать выборки с сигналами от выборок без сигнала. Вероятно он будет работать не только для последовательностей Шайна-Дальгарно разных бактерий, но и для других консервативных сигналов.

Задание 3. Вычисление информационного содержания и построение LOGO

Информационное содержание IC выравнивания равно 8.1.

С помощью сервиса WebLOGO 3 построил LOGO

Таблица 3. Матрица информационного содержания для последовательности Шайна-Дальгарно бактерии Bacillus Subtilis

А затем LOGO был построен с помощью сервиса WebLOGO 3:

LOGO
Рис. 5 LOGO для последоватльности Шайна-Дальгарно бактерии Bacillus Subtilis

Получилось довольно хорошие значение IC и LOGO, что говорит о силе сигнала.