Сигналы и мотивы
Пример сигнала. Транс-сплайсинг у C. elegans
Сайт транс-сплайсинга является сигналом к вырезанию части мРНК, предшествующей экзону, – аутрона и замене его на 22-звенную последовательность, вырезаемую из РНК-предшественника, который формирует SL (spliced leader) мяРНП (малый ядерный рибонуклеопротеин).
Транс-сплайсингу подвергается около 70% мРНК C. elegans [1]. Хотя механизмы цис- и транс-сплайсинга схожи, для последнего необходима лишь интрон-подобная последовательность на 5’-конце мРНК без 5’-сайта сплайсинга, или аутрон [2]. При этом консенсус 3’-сайта сплайсинга при цис- и транс-механизме одинаковый (Таблица 1).

Сигнал транс-сплайсинга адресован к SL мяРНП, а также к компонентам сплайсосомы, включая мяРНП U2, U4, U5 и U6. С их помощью через промежуточные лассо-подобные структуры аутрон замещается частью SL мяРНП (Рис.1). Транс-сплайсинг является настолько эффективным механизмом, что практически невозможно выделить пре-мРНК, содержащие аутрон, так что последовательности аутронов малоизвестны.

[1] http://www.wormbook.org/chapters/www_transsplicingoperons/transsplicingoperons.html
[2] https://www.ncbi.nlm.nih.gov/books/NBK20087/
Построение позиционной весовой матрицы (PWM) для последовательности Козак человека
Для обучения и тестирования PWM с помощью библиотеки requests было скачано 100 последовательностей окрестностей инициаторного кодона ATG генов белков человека. Была выбрана + цепь X-хромосомы.
Ссылка на файл с последовательностями.
Далее из скачанных последовательностей были вырезаны участки, содержащие 7 нуклеотидов до старта трансляции, сам старт трансляции и 3 нуклеотида после, и из них отобраны те, что содержат старт-кодон ATG. Полученные данные были разделены на две части: 40 последовательностей для обучения PWM и 47 для тестирования.
Ссылка на файл с последовательностями для обучения.
В качестве отрицательного контроля были отобраны фрагменты, содержащие ATG, отдаленные от начала гена более чем на 100 нуклеотидов, и таким образом не являющиеся стартами трансляции.
На полученных данных была построена позиционная весовая матрица:
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| A | -0.39 | -0.28 | -0.52 | -0.28 | 0.6 | 0.15 | -0.39 | 1.19 | -3.89 | -3.89 | 0.15 | -0.18 | -0.39 |
| T | -0.39 | -0.84 | -0.84 | -0.52 | -0.84 | -1.32 | -1.69 | -3.89 | 1.19 | -3.89 | -1.32 | -0.52 | -0.18 |
| G | 0.39 | 0.47 | 0.61 | 0.21 | 0.31 | -0.0 | 0.31 | -3.5 | -3.5 | 1.58 | 0.79 | 0.11 | 0.39 |
| C | 0.39 | 0.47 | 0.47 | 0.54 | -1.3 | 0.61 | 0.84 | -3.5 | -3.5 | -3.5 | -0.46 | 0.54 | 0.21 |
Для вычисления базовых частот нуклеотидов был взят GC-состав генома равный 40,4 (ссылка). За предоставленный скрипт для построения матрицы выражаю большую благодарность Д. Звездину.
Вычисление веса построенной PWM для тестовой выборки фрагментов
Для положительного и отрицательного контроля был вычислен средний вес. Для сравнения распределения весов был построен график (ссылка на скрипт в R), а также проведен тест Манна-Уитни.

Средний вес для положительного контроля: 4.46
Средний вес для отрицательного контроля: 3.40
Результат теста Манна-Уитни: statistic=1427.0, pvalue=0.014894227155172182Можно видеть, что средний вес отрицательного контроля значимо ниже среднего веса положительного контроля. Это связано с тем, что для отрицательного контроля были отобраны последовательности, не содержащие старта трансляции, а PWM была построена для последовательности Козак на фрагментах со старт-кодонами.
Вычисление информационного содержания сигнала старта трансляции
Ниже представлена матрица информационного содержания IC(b,j) для выравнивания из материала обучения.
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| A | -0,11 | -0,09 | -0,13 | -0,09 | 0,47 | 0,08 | -0,11 | 1,69 | -0,03 | -0,03 | 0,08 | -0,06 | -0,11 |
| T | -0,11 | -0,16 | -0,16 | -0,13 | -0,16 | -0,15 | -0,13 | -0,03 | 1,69 | -0,03 | -0,15 | -0,13 | -0,06 |
| G | 0,17 | 0,22 | 0,33 | 0,08 | 0,12 | 0,00 | 0,12 | -0,03 | -0,03 | 2,24 | 0,51 | 0,04 | 0,17 |
| C | 0,17 | 0,22 | 0,22 | 0,27 | -0,10 | 0,33 | 0,57 | -0,03 | -0,03 | -0,03 | -0,08 | 0,27 | 0,08 |
| ICj | 0,12 | 0,19 | 0,26 | 0,13 | 0,33 | 0,26 | 0,45 | 1,60 | 1,60 | 2,15 | 0,36 | 0,12 | 0,08 |
Ниже представлена визуализация информационного содержания в виде LOGO, построенная с помощью сервиса Web LOGO 3.

Можно видеть, что в последовательности сигнала наиболее часто встречаются G и C. Информационное содержание старт-кодона ATG намного более значимо, чем информационное содержание остальной последовательности.