Название сигнала: recombination signal sequence (сигнальнвая последовательность рекомбинации)
В чём состоит сингнал: данный сигнал необходим для V(D)J рекомбинации
Кому адресован: ферментативный комплекс RAG1/RAG2
Предназначение: белки RAG узнают сигнал и вносят одноцепочечный разрыв между сегментами V, D и J и их фланкирующими последовательностями RSS
Сила сигнала: белки RAG должны случайным образом связываться с одной из RSS между V-сегментами и с другой — между J-сегментами. При этом не должно быть такого, что в какой-то области комплекс не связался ни с одной RSS, иначе антитело не получится. Так что сигналы должны быть довольно сильными, а раз все RSS одинаковы по силе, выбор осуществуляется случайным образом.
Для этого задания я выбрала сигнал RSS – recombination signal sequence – это фланкирующие последовательности сегментов V, D и J. V(D)J рекомбинация создает разнообразие в иммунной системе посредством лимфоид-специфичной сборки множества генных сегментов в функциональные гены иммуноглобулинов и рецепторов Т-клеток. V(D)J рекомбинация инициируется белками RAG1 и RAG2, которые вводят двухцепочечные разрывы ДНК между сегментами V (variable), D (diversity) и J (joining) и их фланкирующими сигнальными послеоваткльносятми RSS. Расположение кодирующих сегментов и RSS, а также схема V(D)J рекомбинации представлена на Рис 1. RSS состоят из 3 частей:
RSS делят на 12-RSS и 23-RSS по длине спейсера. Сплайсинг может происходить только между одним сегментом, фланкированным 12-RSS, и другим сегментом, фланкированным 23-RSS, как гласит правило 12/23. Для оптимальной активности RAG необходимы взаимодействия как с консервативным гептамером, так и с нонамером. 12-RSS и 23-RSS связываются с одним и тем же RAG. Было показано, что белок группы с высокой подвижностью HMGB1 стимулирует ДНК-связывающую активность RAG, предположительно индуцируя изгиб RSS. RSS распознается обеими субъединицами RAG1 в димере RAG, при этом начальная часть в основном распознается инсерционным доменом (ID) и РНКаза H-подобным доменом (RNH) одной субъединицы, а более дистальная часть распознается RNH, ДНК-связывающим доменом и С-концевым доменом (CTD) симметричной субъединицы. Множенственные взаимодействия наблюдаются в первых трёх позициях гептамера, чем объясняется идеальная консервативность последовательности этих нуклеотидов в разных геномах (консенсусная последовательность RSS представлена на Рис 2). При этом основание первого нуклеотида выворачивается из дуплекса. Связывание одного RSS индуцирует конформационные изменения в обоих мономерах RAG1, и это может способствовать образованию парных комплексов 12-RSS и 23-RSS. Когда 12-RSS связывается как гептамером, так и нонамером с в HMGB1-изогнутой конформации, димер NBD наклоняется в сторону более короткого 12-RSS, оставляя тот же самый димер NBD со способностью связывания только с 23-RSS, также в HMGB1-изогнутой конформации. И наоборот, когда 23-RSS связан, димер NBD отклоняется в сторону от более длинного 23-RSS, оставляя тот же самый димер NBD со способностью взаимодействовать только с 12-RSS. Также каталитический остаток в активном центре находится на спирали, которая взаимодействует с RSS. Таким образом, связывание RSS может также индуцировать каталитические конформации в RAG1.
После внесения разрыва белками RAG образовавшаяся 3’-ОН группа атакует фосфодиэфирную связь в противоположной цепи. На концах кодирующих сегментов образуются ДНК-шпильки, которые узнаются белками Ku70/Ku80, а Artemis разрезает шпильки (несиквенсспецифично). Далее концы кодирующих сегментов соединяются по тому же механизму, что и при негомологичном соединении концов при репарации ДНК. Так остаются только определённые V, D и J сегменты. Перед этим терминальная дезоксинуклеотидил трансфераза (TdT) достраивает несколько нуклеотидов (до 10-20) случайным образом, что дает дополнительную вариабельность. Вырезанный участок, содержащий сигнальные последовательности RSS, замыкается с образованием кольцевидной структуры, известной как рекомбинационное вырезанное кольцо.
Для выполнения этого задания я использовала скрипт, позаимствованный у наших уважаемых старшекурсников.
Он строит PWM для последовательностей следующего вида:
7 нуклеотидов до ATG + ATG + 3 нуклеотида после ATG
В результате работы скрипта получаются 3 выборки: 100 последовательностей для построения PWM, 200 последовательностей для тестирования, где ожидается сигнал и 200 последовательностей для отрицательного контроля со случайными ATG.
Полученная PWM с псевдоотсчётами представлена в Таблице 1.
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0,44 | -0,61 | -0,67 | -0,17 | 0,28 | -0,25 | -0,44 | 1,21 | -5,00 | -5,00 | -0,17 | 0,02 | -0,89 |
T | -0,25 | -0,34 | -0,25 | -0,49 | -1,29 | -0,81 | -1,74 | -5,00 | 1,21 | -5,00 | -0,98 | -0,49 | -0,17 |
G | 0,44 | 0,64 | 0,41 | 0,20 | 0,67 | 0,38 | 0,38 | -4,64 | -4,64 | 1,58 | 0,80 | -0,18 | -0,64 |
C | 0,24 | 0,16 | 0,41 | 0,44 | -0,45 | 0,50 | 0,80 | -4,64 | -4,64 | -4,64 | -0,13 | 0,53 | 0,16 |
Гистограммы весов:
Исходя из графиков, я выбрала порог веса 4, так как в этой точке на гистограмме для материала обучения количество последовательностей с данным весом резко начинает расти, а на гистограмме для отрицательного контроля – резко падать. Там же наблюдается пик на гистограмме для материала тестирования. В области веса 6 наблюдается какой-то странный провал, как будто что-то пошло не так, так что на это место я не обращала внимания.
Результат проверки представлен в таблице 2:
Обучающая выборка | Тестовая выборка | Отрицательный контроль | |
---|---|---|---|
+ сигнал | 81 (81,0%) | 136 (68,0%) | 52 (26,0%) |
- сигнал | 19 (19,0%) | 64 (32,0%) | 148 (74,0%) |
Вычисленное информационное содержание выравнивания:
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | -0,02 | -0,09 | -0,11 | -0,11 | 0,29 | -0,02 | -0,06 | 1,76 | 0,00 | 0,00 | -0,08 | -0,02 | -0,14 |
T | -0,11 | -0,10 | -0,15 | -0,12 | -0,08 | -0,14 | -0,14 | 0,00 | 1,76 | 0,00 | -0,16 | -0,16 | -0,12 |
G | 0,05 | 0,36 | 0,09 | 0,02 | 0,32 | 0,01 | 0,18 | 0,00 | 0,00 | 2,29 | 0,75 | 0,04 | 0,46 |
C | 0,13 | -0,03 | 0,36 | 0,36 | -0,07 | 0,25 | 0,34 | 0,00 | 0,00 | 0,00 | -0,09 | 0,36 | 0,01 |
IC(j) | 0,05 | 0,13 | 0,19 | 0,15 | 0,46 | 0,10 | 0,33 | 1,76 | 1,76 | 2,29 | 0,43 | 0,22 | 0,21 |
Построила LOGO для тестовой выборки:
Очень хорошо видно консервативные ATG, а также наиболее заметны позиции вокруг ATG: 5, 7 и 11.