Исторически сложилось, что программируемые сдвиги рамки считывания (programmed ribosomal frameshifting, PRF) ассоциируются в первую очередь с вирусами. Но как показали исследования, сигналы -1 рибосомального сдвига рамки считывания (−1 ribosomal frameshifting, -1 RF) присутствуют и в эукариотических геномах, в частности в геноме дрожжей, где они достаточно распространены.[1] В общем для PRF характерен мотив из трех регионов: “сайт скольжения” из 7-ми нуклеотидного мотива N NNW WWH, короткая спейсерная последовательность и структура, направляющая рибосому (обычно псевдоузел).[2] В отличие от бактерий, -1 RF сигналы дрожжей дестабилизируют мРНК. Среди -1 RF сигналов дрожжей встречаются как эффективные (EST2, ~55% сдвигов индуцировано), так и низкоэффективные (TBF1, ~5% сдвигов).[1]
Для выполнения данного задания сначала требовалось построить позиционно весовую матрицу. Были выбраны 30 фрагментов длинной 13 нуклеотидов из 30 генов первой хромосомы человека (7 нуклеотидов до старта трансляции + ATG + 3 нуклеотида после ATG), фрагменты записаны в файл. Для отбора фрагментов задачи был написан скрипт на Python, представляющий собой слегка модифицированный скрипт из подсказок (координаты и другие параметры менялись вручную, понимаю, что не биоинформатично, но мне так быстрее). Координаты брались из файла. Для обучения были отбраны 13 последовательностей (файл, оставшиеся 17 – для теста. (файл)
Вес каждой позиции в выравнивании вычислялся по формуле:
W(b,j) = ln(([N(b,j) + ε(b)]/(N + ε))/p(b)) , где N(b,j) – частота буквы в колонке, N – число последовательностей, p(b) – ожидаемая частота оснований, ε(b) – псевдокаунты.
W(b,j) | Ожид. частоты | ε(b) | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | 0,29 | 0,1 | -3,659965 | -0,615443 | -3,65997 | -0,22598 | 0,450908 | -0,22598 | 0,0536066 | 1,2152318 | -3,65996 | -3,65996 | -0,615443 | -0,225978 | -3,65996 |
G | 0,21 | 0,1 | 0,773682 | 0,37638 | 0,594634 | 0,37638 | 0,37638 | -0,29267 | 0,37638 | -3,337192 | -3,337192 | 1,5380 | 0,594634 | -0,29267 | 0,925488 |
T | 0,29 | 0,1 | -0,225978 | -3,659965 | -0,225978 | -1,26207 | -3,659965 | -1,26207 | -1,26207 | -3,659965 | 1,215232 | -3,659965 | -0,615443 | -0,615443 | 0,053607 |
C | 0,21 | 0,1 | 0,37638 | 0,925488 | 0,594634 | 0,594634 | 0,096795 | 0,925488 | 0,37638 | -3,337192 | -3,337192 | -3,337192 | 0,37638 | 0,773682 | -0,29267 |
Далее проводилось тестирование матрицы при помощи положительного и отрицательного контроля. В качестве положительного контроля были использованы 17 последовательностей из изначального набора из 30 фрагментов, в качестве отрицательного – 17 фрагментов, содержащих ATG, которые не являются стартами трансляции, из генома коронавируса. (файл с последовательностями). Результат сравнения представлен в виде боксплота (Рис. 1). Как видно из графиков, распределение весов положительного контроля отличается от отрицательно и ближе к выборке. Вполне можно судить о специфичности последовательности Козак, но лучше конечно проверить это на большем объеме последовательностей.
Расчет значений матрицы информационного содержания осуществляется по формуле IC(b,j) = f(b,j)*ln[f(b,j)/p(b)]. Частоты букв были взяты из материала обучения.
base | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | 0 | -0,097527 | 0 | -0,052722 | 0,214469 | -0,052722 | 0,018221 | 1,237874 | 0 | 0 | -0,097527 | -0,052722164 | 0 |
G | 0,36344 | 0,117536 | 0,23274 | 0,117536231 | 0,117536231 | -0,047869912 | 0,117536231 | 0 | 0 | 1,560647 | 0,232744732 | -0,047869912 | 0,507019983 |
T | -0,052722 | 0 | -0,052722164 | -0,102082692 | 0 | -0,1020827 | -0,102082692 | 0 | 1,237874356 | 0 | -0,0975274 | -0,097527357 | 0,0182213 |
C | 0,1175362 | 0,507019983 | 0,2327447 | 0,232744732 | 0,021764003 | 0,5070199 | 0,117536231 | 0 | 0 | 0 | 0,1175362 | 0,363442089 | -0,04786991 |
Выравниванивание было подано на вход программе WebLogo3, получили визуализацию информационного содержания для каждой колонки. На диаграмме видно, что среди 7 нуклеотидов до ATG преобладают C и G, среди них также присутствуют позиции с более высоким относительно других весом. Но в любом случае, данная последовательность не так сильно значима, как сам ATG.