Сигналы и мотивы - 1. PWM, IC и LOGO.

1. Описание сигнала. Рибосомальные сигналы сдвига рамки считывания -1 RF у дрожжей (S. cerevisiae)

Исторически сложилось, что программируемые сдвиги рамки считывания (programmed ribosomal frameshifting, PRF) ассоциируются в первую очередь с вирусами. Но как показали исследования, сигналы -1 рибосомального сдвига рамки считывания (−1 ribosomal frameshifting, -1 RF) присутствуют и в эукариотических геномах, в частности в геноме дрожжей, где они достаточно распространены.[1] В общем для PRF характерен мотив из трех регионов: “сайт скольжения” из 7-ми нуклеотидного мотива N NNW WWH, короткая спейсерная последовательность и структура, направляющая рибосому (обычно псевдоузел).[2] В отличие от бактерий, -1 RF сигналы дрожжей дестабилизируют мРНК. Среди -1 RF сигналов дрожжей встречаются как эффективные (EST2, ~55% сдвигов индуцировано), так и низкоэффективные (TBF1, ~5% сдвигов).[1]

Ссылки на источники

  1. Belew, A. T., Advani, V. M., & Dinman, J. D. (2011). Endogenous ribosomal frameshift signals operate as mRNA destabilizing elements through at least two molecular pathways in yeast. Nucleic acids research, 39(7), 2799–2808. https://doi.org/10.1093/nar/gkq1220
  2. Jacobs, J. L., Belew, A. T., Rakauskaite, R., & Dinman, J. D. (2007). Identification of functional, endogenous programmed -1 ribosomal frameshift signals in the genome of Saccharomyces cerevisiae. Nucleic acids research, 35(1), 165–174. https://doi.org/10.1093/nar/gkl1033

2. Позиционно весовая матрица для последовательности Козак человека

Для выполнения данного задания сначала требовалось построить позиционно весовую матрицу. Были выбраны 30 фрагментов длинной 13 нуклеотидов из 30 генов первой хромосомы человека (7 нуклеотидов до старта трансляции + ATG + 3 нуклеотида после ATG), фрагменты записаны в файл. Для отбора фрагментов задачи был написан скрипт на Python, представляющий собой слегка модифицированный скрипт из подсказок (координаты и другие параметры менялись вручную, понимаю, что не биоинформатично, но мне так быстрее). Координаты брались из файла. Для обучения были отбраны 13 последовательностей (файл, оставшиеся 17 – для теста. (файл)
Вес каждой позиции в выравнивании вычислялся по формуле: W(b,j) = ln(([N(b,j) + ε(b)]/(N + ε))/p(b)) , где N(b,j) – частота буквы в колонке, N – число последовательностей, p(b) – ожидаемая частота оснований, ε(b) – псевдокаунты.

W(b,j) Ожид. частоты ε(b) 1 2 3 4 5 6 7 8 9 10 11 12 13
A 0,29 0,1 -3,659965 -0,615443 -3,65997 -0,22598 0,450908 -0,22598 0,0536066 1,2152318 -3,65996 -3,65996 -0,615443 -0,225978 -3,65996
G 0,21 0,1 0,773682 0,37638 0,594634 0,37638 0,37638 -0,29267 0,37638 -3,337192 -3,337192 1,5380 0,594634 -0,29267 0,925488
T 0,29 0,1 -0,225978 -3,659965 -0,225978 -1,26207 -3,659965 -1,26207 -1,26207 -3,659965 1,215232 -3,659965 -0,615443 -0,615443 0,053607
C 0,21 0,1 0,37638 0,925488 0,594634 0,594634 0,096795 0,925488 0,37638 -3,337192 -3,337192 -3,337192 0,37638 0,773682 -0,29267

Далее проводилось тестирование матрицы при помощи положительного и отрицательного контроля. В качестве положительного контроля были использованы 17 последовательностей из изначального набора из 30 фрагментов, в качестве отрицательного – 17 фрагментов, содержащих ATG, которые не являются стартами трансляции, из генома коронавируса. (файл с последовательностями). Результат сравнения представлен в виде боксплота (Рис. 1). Как видно из графиков, распределение весов положительного контроля отличается от отрицательно и ближе к выборке. Вполне можно судить о специфичности последовательности Козак, но лучше конечно проверить это на большем объеме последовательностей.

fig1
Рис. 1. Распределение весов последоваетльностей для положительного и отрицательного контроля относительно выборки. Красный цвет – отрицательный контроль, зеленый – положительный, голубой – вся выборка.

3. Информационное содержание последовательности Козак и построение LOGO

Расчет значений матрицы информационного содержания осуществляется по формуле IC(b,j) = f(b,j)*ln[f(b,j)/p(b)]. Частоты букв были взяты из материала обучения.

base 1 2 3 4 5 6 7 8 9 10 11 12 13
A 0 -0,097527 0 -0,052722 0,214469 -0,052722 0,018221 1,237874 0 0 -0,097527 -0,052722164 0
G 0,36344 0,117536 0,23274 0,117536231 0,117536231 -0,047869912 0,117536231 0 0 1,560647 0,232744732 -0,047869912 0,507019983
T -0,052722 0 -0,052722164 -0,102082692 0 -0,1020827 -0,102082692 0 1,237874356 0 -0,0975274 -0,097527357 0,0182213
C 0,1175362 0,507019983 0,2327447 0,232744732 0,021764003 0,5070199 0,117536231 0 0 0 0,1175362 0,363442089 -0,04786991

Выравниванивание было подано на вход программе WebLogo3, получили визуализацию информационного содержания для каждой колонки. На диаграмме видно, что среди 7 нуклеотидов до ATG преобладают C и G, среди них также присутствуют позиции с более высоким относительно других весом. Но в любом случае, данная последовательность не так сильно значима, как сам ATG.

fig2
Рис. 2.Визуализация IC последовательности