Работа с сигнальными последовательностями в геноме

Recombination signal sequences

Данные сигналы (их два вида: гептамерные и нонамерные) расположены между участками ДНК, кодирующими V-, D- и J-сегменты будущего антитела или B-/T-клеточного мембранного рецептора. Они узнаются белками RAG1/RAG2, и через них производится V(D)J-рекомбинация.

Эффективность сигнала высокая, ведь V(D)J-рекомбинация происходит во всех лимфоцитах

Консенсусная последовательность для гептамера CACAGTG, для нонамера - ACAAAAACC.

Источник - статья в Annual Review of Immunology:
Schatz, David G., Oettinger, Marjorie A., Schlissel, Mark S. (1992)
"V(D)J Recombination: Molecular Biology and Regulation"
doi:10.1146/annurev.immunol.10.1.359

Построение PWM
Результаты

Мной были получены "выравнивания" без гэпов для окрестностей старт-кодонов SARS-CoV-2, для окрестностей остальных ATG SARS-CoV-2 и для хромосомы 12 человека

По окрестностям старт-кодонов хромосомы 12 человека я составил PWM для последовательности Козак человека, а затем построил гистограммы, показывающие распределение весов окрестностей старт-кодонов SARS-CoV-2 (верхняя) и окрестностей остальных ATG SARS-CoV-2 (нижняя)

Единственный вывод, который однозначно можно сделать, смотря на эти гистограммы, - 11 старт-кодонов SARS-CoV-2 явно недостаточно для оценки полученной PWM. В целом видно, что веса последовательностей возле старт-кодонов выше, но статистическая значимость результатов под сомнением

Информационное содержание

Получилась матрица IC(b,j) следующего содержания

LOGO последовательности Козак