Практикум 6.

Сигнал трансляции в эндоплазматический ретикулум.

Трансляция любого белка в клетке начинается на свободных рибосомах, слоняющихся по цитоплазме. Однако далнейшая судьба разных белков неодинакова: часть из них должна остаться в цитоплазме, а часть - попасть в другие компартменты клетки или же за её пределы (секретируемые белки, например, антитела). Белки, пунк назначения которых - эндоплазматический ретикулум, аппарат Гольджи, лизосомы или внеклеточная среда, транслируются внутрь эндоплазматического ретикулума на сидячих рибосомах. Чтобы попасть туда до окончания трансляции, белку нужно быть узнанным SRP-частицей (мультисубъединичный белковый комплекс, включающий молекулу специальной РНК), которая как раз и отвечает за транспорт рибосомы в комплексе с мРНК и синтезируемой пептидной цепью к ЭПР. Логично, что пептидный сигнал (лидерный пептид) таких белков расположен на N-конце, так как этот конец первым выходит из рибосомы. Его узнаёт часть SRP-частицы, в то время как другая её часть связывается с рибосомой и временно блокирует трансляцию. В таком состоянии весь комплекс дрейфует к ЭПР, где садится на белок-транслокатор, SRP-частица диссоциирует, и трансляция продолжается. Ниже на рис.1 гифка, наглядно демонстрирующая весь процесс (будьте терпеливы и SRP-частица обязательно придёт!).

cringe
Рисунок 1. Гиф, описывающая весь процесс с участием SRP-частицы.

Позиционная матрица для последовательности Козак человека.

Сразу хочу оговориться, что для построения матриц и формирования выборок далее я пользовался адаптированным кодом, написанным Петром Милейко. Вот он. В результате его работы я получил 3 файла: первый, второй и третий, в которых лежат соответствеено 1) 100 последовательностей вида |7 нуклеотидов + инициаторный ATG + 3 нуклеотида| для построения PWM, 2) 300 последовательностей такого же вида в качестве тестовой выборки и 3) 300 последовательностей вида |7 нуклеотидов + неинициаторный ATG + 3 нуклеотида| в качестве отрицательного контроля.

Затем была построена PWM (исходим из GC содержания в геноме человека 41%), которую можно увидеть в таблице 1.

Таблица1. Позиционно весовая матрица, построенная по обучающей выборке.
1 2 3 4 5 6 7 8 9 10 11 12 13
A -0.389 -0.34 -0.551 -0.206 0.304 -0.126 -0.126 1.218 -5.691 -5.691 -0.389 0.112 -0.819
C 0.643 0.115 0.535 0.668 -0.187 0.617 0.717 -5.327 -5.327 -5.327 0.198 0.59 0.347
G 0.115 0.476 0.414 -0.025 0.59 -0.312 0.115 -5.327 -5.327 1.582 0.808 -0.187 0.741
T -0.494 -0.249 -0.551 -0.612 -1.593 -0.34 -1.187 -5.691 1.218 -5.691 -1.187 -0.819 -0.676

Чтобы выбрать порог, по которому выбирать, найден сигнал или нет, я воспользовался гистограммой на рис.2, изображающей распределение весов последовательностей для трёх выборок (обучающая, тестовая, отрицательный контроль).

cringe
Рисунок 2. На рисунке показаны гистограммы для трёх выборок последовательностей, где по оси х отложены интервалы веса последовательности, а по оси у - количество последовательностей, попавших в этот интервал.

В качестве порога я выбрал число 5 и построил таблицу 2, в которой для каждой из трёх выборок дано количество последовательностей, перешедших порог и не перешедших его:

Таблица 2. Количества последовательностей, перешедших и не перешедших порог для каждой выборки.
выборка
всего последовательностей
перешедших порог ниже порога
обучающая 100 60 40
тестовая 200
107 93
отрицательный контроль 200 45 155

Информационное содержание последовательности Козак человека.

С помощью того же кода была сгенерирована таблица 3, содержащая информационное содержание для каждой позиции и каждого нуклеотида:

Таблица 3. Информационное содержание для каждой буквы в каждой позиции.
1 2 3 4 5 6 7 8 9 10 11 12 13
A -0.112 -0.103 -0.135 -0.071 0.176 -0.047 -0.047 1.761 0.0 0.0 -0.112 0.053 -0.154
C 0.362 0.038 0.27 0.386 -0.046 0.338 0.435 0.0 0.0 0.0 0.072 0.315 0.145
G 0.038 0.227 0.185 -0.007 0.315 -0.068 0.038 0.0 0.0 2.286 0.536 -0.046 0.46
T -0.128 -0.083 -0.135 -0.141 -0.138 -0.103 -0.154 0.0 1.761 0.0 -0.154 -0.154 -0.146

С помощью ресурса WebLogo3 на основе обучающей выборки был создан рисунок 3, на котором видны "важные" позиции сигнала:

cringe
Рисунок 3. Рисунок, полученный с помощью Logo. Помимо ожидаемо консервативного ATG, видны позиции 5, 7 и 11-13, где заметно предпочтение каких-либо букв.

GAATTC сайты в геноме E. coli.

Чтобы обойти проблемы с перекрыванием сайтов, я сделал так: предположил, что вероятность встретить искомый сайт не зависит от остатка деления номера начала сайта на 6 и разбил геном на слова по 6 букв, идущие друг за другом, но не перекрывающиеся (n штук). Посчитал вероятность встречи сайта как произведение частот букв по геному. Провёл биномиальный тест из модуля scipy.stats (ожидаемое = np, получилось равным 223, реальное - 127). Получил p-значение, примерно равное 3.6е-12, что говорит о значимости различий. всё сделано с помощью собственного скрипта.

Литература.

ссылка на гиф из википедии

Janda, C., Li, J., Oubridge, C. et al. Recognition of a signal peptide by the signal recognition particle. Nature 465, 507–510 (2010). https://doi.org/10.1038/nature08870

von Heijne G. The signal peptide //The Journal of membrane biology. – 1990. – Т. 115. – С. 195-201.