Сигналы и мотивы

Пример сигнала. Транс-сплайсинг у C. elegans

Сайт транс-сплайсинга является сигналом к вырезанию части мРНК, предшествующей экзону, – аутрона и замене его на 22-звенную последовательность, вырезаемую из РНК-предшественника, который формирует SL (spliced leader) мяРНП (малый ядерный рибонуклеопротеин).

Транс-сплайсингу подвергается около 70% мРНК C. elegans [1]. Хотя механизмы цис- и транс-сплайсинга схожи, для последнего необходима лишь интрон-подобная последовательность на 5’-конце мРНК без 5’-сайта сплайсинга, или аутрон [2]. При этом консенсус 3’-сайта сплайсинга при цис- и транс-механизме одинаковый (Таблица 1).

Таблица 1. Сравнение цис- и транс-3’-сайтов сплайсинга.

Сигнал транс-сплайсинга адресован к SL мяРНП, а также к компонентам сплайсосомы, включая мяРНП U2, U4, U5 и U6. С их помощью через промежуточные лассо-подобные структуры аутрон замещается частью SL мяРНП (Рис.1). Транс-сплайсинг является настолько эффективным механизмом, что практически невозможно выделить пре-мРНК, содержащие аутрон, так что последовательности аутронов малоизвестны.

Рис.1 Сравнение цис- и транс-сплайсинга.

[1] http://www.wormbook.org/chapters/www_transsplicingoperons/transsplicingoperons.html

[2] https://www.ncbi.nlm.nih.gov/books/NBK20087/

Построение позиционной весовой матрицы (PWM) для последовательности Козак человека

Для обучения и тестирования PWM с помощью библиотеки requests было скачано 100 последовательностей окрестностей инициаторного кодона ATG генов белков человека. Была выбрана + цепь X-хромосомы.

Ссылка на файл с последовательностями.

Далее из скачанных последовательностей были вырезаны участки, содержащие 7 нуклеотидов до старта трансляции, сам старт трансляции и 3 нуклеотида после, и из них отобраны те, что содержат старт-кодон ATG. Полученные данные были разделены на две части: 40 последовательностей для обучения PWM и 47 для тестирования.

Ссылка на файл с последовательностями для обучения.

В качестве отрицательного контроля были отобраны фрагменты, содержащие ATG, отдаленные от начала гена более чем на 100 нуклеотидов, и таким образом не являющиеся стартами трансляции.

На полученных данных была построена позиционная весовая матрица:

12345678910111213
A-0.39-0.28-0.52-0.280.60.15-0.391.19-3.89-3.890.15-0.18-0.39
T-0.39-0.84-0.84-0.52-0.84-1.32-1.69-3.891.19-3.89-1.32-0.52-0.18
G0.390.470.610.210.31-0.00.31-3.5-3.51.580.790.110.39
C0.390.470.470.54-1.30.610.84-3.5-3.5-3.5-0.460.540.21

Для вычисления базовых частот нуклеотидов был взят GC-состав генома равный 40,4 (ссылка). За предоставленный скрипт для построения матрицы выражаю большую благодарность Д. Звездину.

Вычисление веса построенной PWM для тестовой выборки фрагментов

Для положительного и отрицательного контроля был вычислен средний вес. Для сравнения распределения весов был построен график (ссылка на скрипт в R), а также проведен тест Манна-Уитни.

Средний вес для положительного контроля: 4.46
Средний вес для отрицательного контроля: 3.40

Результат теста Манна-Уитни: statistic=1427.0, pvalue=0.014894227155172182

Можно видеть, что средний вес отрицательного контроля значимо ниже среднего веса положительного контроля. Это связано с тем, что для отрицательного контроля были отобраны последовательности, не содержащие старта трансляции, а PWM была построена для последовательности Козак на фрагментах со старт-кодонами.

Вычисление информационного содержания сигнала старта трансляции

Ниже представлена матрица информационного содержания IC(b,j) для выравнивания из материала обучения.

12345678910111213
A-0,11-0,09-0,13-0,090,470,08-0,111,69-0,03-0,030,08-0,06-0,11
T-0,11-0,16-0,16-0,13-0,16-0,15-0,13-0,031,69-0,03-0,15-0,13-0,06
G0,170,220,330,080,120,000,12-0,03-0,032,240,510,040,17
C0,170,220,220,27-0,100,330,57-0,03-0,03-0,03-0,080,270,08
ICj0,120,190,260,130,330,260,451,601,602,150,360,120,08

Ниже представлена визуализация информационного содержания в виде LOGO, построенная с помощью сервиса Web LOGO 3.

Можно видеть, что в последовательности сигнала наиболее часто встречаются G и C. Информационное содержание старт-кодона ATG намного более значимо, чем информационное содержание остальной последовательности.