Сигналы в геноме. Примеры и поиск сигналов с известными последовательностями


Описание сигнала RSS
Краткое описание

Название сигнала: recombination signal sequence (сигнальнвая последовательность рекомбинации)

В чём состоит сингнал: данный сигнал необходим для V(D)J рекомбинации

Кому адресован: ферментативный комплекс RAG1/RAG2

Предназначение: белки RAG узнают сигнал и вносят одноцепочечный разрыв между сегментами V, D и J и их фланкирующими последовательностями RSS

Сила сигнала: белки RAG должны случайным образом связываться с одной из RSS между V-сегментами и с другой — между J-сегментами. При этом не должно быть такого, что в какой-то области комплекс не связался ни с одной RSS, иначе антитело не получится. Так что сигналы должны быть довольно сильными, а раз все RSS одинаковы по силе, выбор осуществуляется случайным образом.

Подробное описание

Для этого задания я выбрала сигнал RSS – recombination signal sequence – это фланкирующие последовательности сегментов V, D и J. V(D)J рекомбинация создает разнообразие в иммунной системе посредством лимфоид-специфичной сборки множества генных сегментов в функциональные гены иммуноглобулинов и рецепторов Т-клеток. V(D)J рекомбинация инициируется белками RAG1 и RAG2, которые вводят двухцепочечные разрывы ДНК между сегментами V (variable), D (diversity) и J (joining) и их фланкирующими сигнальными послеоваткльносятми RSS. Расположение кодирующих сегментов и RSS, а также схема V(D)J рекомбинации представлена на Рис 1. RSS состоят из 3 частей:

RSS делят на 12-RSS и 23-RSS по длине спейсера. Сплайсинг может происходить только между одним сегментом, фланкированным 12-RSS, и другим сегментом, фланкированным 23-RSS, как гласит правило 12/23. Для оптимальной активности RAG необходимы взаимодействия как с консервативным гептамером, так и с нонамером. 12-RSS и 23-RSS связываются с одним и тем же RAG. Было показано, что белок группы с высокой подвижностью HMGB1 стимулирует ДНК-связывающую активность RAG, предположительно индуцируя изгиб RSS. RSS распознается обеими субъединицами RAG1 в димере RAG, при этом начальная часть в основном распознается инсерционным доменом (ID) и РНКаза H-подобным доменом (RNH) одной субъединицы, а более дистальная часть распознается RNH, ДНК-связывающим доменом и С-концевым доменом (CTD) симметричной субъединицы. Множенственные взаимодействия наблюдаются в первых трёх позициях гептамера, чем объясняется идеальная консервативность последовательности этих нуклеотидов в разных геномах (консенсусная последовательность RSS представлена на Рис 2). При этом основание первого нуклеотида выворачивается из дуплекса. Связывание одного RSS индуцирует конформационные изменения в обоих мономерах RAG1, и это может способствовать образованию парных комплексов 12-RSS и 23-RSS. Когда 12-RSS связывается как гептамером, так и нонамером с в HMGB1-изогнутой конформации, димер NBD наклоняется в сторону более короткого 12-RSS, оставляя тот же самый димер NBD со способностью связывания только с 23-RSS, также в HMGB1-изогнутой конформации. И наоборот, когда 23-RSS связан, димер NBD отклоняется в сторону от более длинного 23-RSS, оставляя тот же самый димер NBD со способностью взаимодействовать только с 12-RSS. Также каталитический остаток в активном центре находится на спирали, которая взаимодействует с RSS. Таким образом, связывание RSS может также индуцировать каталитические конформации в RAG1.

После внесения разрыва белками RAG образовавшаяся 3’-ОН группа атакует фосфодиэфирную связь в противоположной цепи. На концах кодирующих сегментов образуются ДНК-шпильки, которые узнаются белками Ku70/Ku80, а Artemis разрезает шпильки (несиквенсспецифично). Далее концы кодирующих сегментов соединяются по тому же механизму, что и при негомологичном соединении концов при репарации ДНК. Так остаются только определённые V, D и J сегменты. Перед этим терминальная дезоксинуклеотидил трансфераза (TdT) достраивает несколько нуклеотидов (до 10-20) случайным образом, что дает дополнительную вариабельность. Вырезанный участок, содержащий сигнальные последовательности RSS, замыкается с образованием кольцевидной структуры, известной как рекомбинационное вырезанное кольцо.

colored
Рис 1. Схема V(D)J рекомбинации и расположения кодирующих сегментов и RSS
thickness
Рис 2. Консенсусная последовательность 12-RSS и 23-RSS
Литература
Построение PWM для последовательности Козак человека

Для выполнения этого задания я использовала скрипт, позаимствованный у наших уважаемых старшекурсников.

Он строит PWM для последовательностей следующего вида:

7 нуклеотидов до ATG + ATG + 3 нуклеотида после ATG

В результате работы скрипта получаются 3 выборки: 100 последовательностей для построения PWM, 200 последовательностей для тестирования, где ожидается сигнал и 200 последовательностей для отрицательного контроля со случайными ATG.

Полученная PWM с псевдоотсчётами представлена в Таблице 1.

Таблица 1. PWM
1 2 3 4 5 6 7 8 9 10 11 12 13
A -0,44 -0,61 -0,67 -0,17 0,28 -0,25 -0,44 1,21 -5,00 -5,00 -0,17 0,02 -0,89
T -0,25 -0,34 -0,25 -0,49 -1,29 -0,81 -1,74 -5,00 1,21 -5,00 -0,98 -0,49 -0,17
G 0,44 0,64 0,41 0,20 0,67 0,38 0,38 -4,64 -4,64 1,58 0,80 -0,18 -0,64
C 0,24 0,16 0,41 0,44 -0,45 0,50 0,80 -4,64 -4,64 -4,64 -0,13 0,53 0,16

Гистограммы весов:

training
test
control

Исходя из графиков, я выбрала порог веса 4, так как в этой точке на гистограмме для материала обучения количество последовательностей с данным весом резко начинает расти, а на гистограмме для отрицательного контроля – резко падать. Там же наблюдается пик на гистограмме для материала тестирования. В области веса 6 наблюдается какой-то странный провал, как будто что-то пошло не так, так что на это место я не обращала внимания.

Результат проверки представлен в таблице 2:

Таблица 2. Проверка
Обучающая выборка Тестовая выборка Отрицательный контроль
+ сигнал 81 (81,0%) 136 (68,0%) 52 (26,0%)
- сигнал 19 (19,0%) 64 (32,0%) 148 (74,0%)
Вычисление IC и постороение LOGO

Вычисленное информационное содержание выравнивания:

Таблица 3. IC
1 2 3 4 5 6 7 8 9 10 11 12 13
A -0,02 -0,09 -0,11 -0,11 0,29 -0,02 -0,06 1,76 0,00 0,00 -0,08 -0,02 -0,14
T -0,11 -0,10 -0,15 -0,12 -0,08 -0,14 -0,14 0,00 1,76 0,00 -0,16 -0,16 -0,12
G 0,05 0,36 0,09 0,02 0,32 0,01 0,18 0,00 0,00 2,29 0,75 0,04 0,46
C 0,13 -0,03 0,36 0,36 -0,07 0,25 0,34 0,00 0,00 0,00 -0,09 0,36 0,01
IC(j) 0,05 0,13 0,19 0,15 0,46 0,10 0,33 1,76 1,76 2,29 0,43 0,22 0,21

Построила LOGO для тестовой выборки:

kozaklogo
Рис 3. LOGO для тестовой выборки

Очень хорошо видно консервативные ATG, а также наиболее заметны позиции вокруг ATG: 5, 7 и 11.