Микроэлемент селен включен в физиологию человека в виде селеноцистеина (Sec). 25 белков в организме человека, содержащих Sec, известны как селенопротеины. Их синтез зависит от трансляционной перекодировки стоп-кодона UGA, позволяющей вставлять Sec. Для этого требуется шпилька в 3'-нетранслируемой области эукариотических мРНК, известная как последовательность вставки селеноцистеина (Selenocysteine Insertion Sequence или SECIS). SECIS распознается SECIS-связывающим белком 2 (SBP2), и это взаимодействие необходимо для осуществления перекодирования UGA.[1] Сигнал является высокоэффективным, так как в противном случае, если SBP2 не прореагирует на сигнал, трансляция селенопротеина не пройдет до конца.
Для выполнения задания я решила работать с последовательностью Козак в геноме человека. С помощью скрипта, написанного Георгием Муравьевым, я получила следующие файлы:
kozak-learn.fasta - 500 последовательностей для обучения
kozak-test.fasta - 500 последовательностей для тестирования
pseudokozak1.fasta - 500 последовательностей для негативного контроля
result.csv - позиционная весовая матрица с псевдоотсчетами
ic.csv - матрица информационного содержания IC(b,j) для выравнивания,
hist.svg - гистограммы весов в svg формате
hist.png - гистограммы весов в png формате
check.csv - таблица результатов проверки
По материалам для обучения была построена позционная весовая матрица (PWM):
letter | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
A | -0.32 | -0.44 | -0.26 | -0.22 | 0.41 | 0.08 | -0.34 | 1.22 | -6.60 | -6.60 | -0.31 | 0.00 | -0.40 |
T | -0.29 | -0.35 | -0.40 | -0.73 | -1.35 | -0.79 | -1.18 | -6.60 | 1.22 | -6.60 | -0.62 | -0.50 | -0.27 |
G | 0.28 | 0.56 | 0.32 | 0.13 | 0.49 | -0.08 | 0.33 | -6.24 | -6.24 | 1.58 | 0.82 | -0.19 | 0.50 |
C | 0.37 | 0.17 | 0.35 | 0.64 | -0.35 | 0.56 | 0.71 | -6.24 | -6.24 | -6.24 | -0.23 | 0.55 | 0.16 |
Затем по данным PWM были рассчитаны веса последовательностей и построена гистограмма их распределения. Исходя из гистограммы был выбран порог веса 4, выше которого находка может считаться правильной.
Распределения весов элементов тренировочной и тестовой выборок совпадают, распределение для отрицательного контроля отличается, оно смещено влево (Рис. 1).
Обучение | Положительный контроль | Отрицательный контроль | |
Cигнал(+) | 385 (77.0%) | 374 (74.8%) | 142 (28.4%) |
Cигнал(-) | 115 (23.0%) | 126 (25.2%) | 358 (71.6%) |
Была получена матрица информационного содержания и с использованием сервиса "WebLOGO 3" построено LOGO.
letter | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
A | -0.10 | -0.12 | -0.08 | -0.08 | 0.27 | 0.04 | -0.10 | 1.76 | 0.00 | 0.00 | -0.10 | 0.00 | -0.11 |
T | -0.09 | -0.10 | -0.11 | -0.15 | -0.15 | -0.15 | -0.15 | 0.00 | 1.76 | 0.00 | -0.14 | -0.13 | -0.09 |
G | 0.11 | 0.29 | 0.13 | 0.04 | 0.24 | -0.02 | 0.13 | 0.00 | 0.00 | 2.29 | 0.55 | -0.05 | 0.24 |
C | 0.16 | 0.06 | 0.15 | 0.36 | -0.07 | 0.29 | 0.42 | 0.00 | 0.00 | 0.00 | -0.06 | 0.28 | 0.05 |
IC(j) | 0.07 | 0.12 | 0.08 | 0.18 | 0.28 | 0.15 | 0.30 | 1.76 | 1.76 | 2.29 | 0.25 | 0.11 | 0.10 |
Для подcчета числа сайтов GAATTC я использовала штамм Escherichia coli str. K-12 substr. MG1655 и скрипт, написанный Георгием Муравьевым.
Было обнаружено 646 сайтов GAATTC в геноме Escherichia coli, что меньше ожидамого числа - 1097. p-value=1.770*10^(-49) (биномиальное распределение), следовательно, различие статистически значимо; и можно сказать, что GAATTC действительно встречается реже ожидаемого.
1) Bubenik JL, Miniard AC, Driscoll DM. Characterization of the UGA-recoding and SECIS-binding activities of SECIS-binding protein 2. RNA Biol. 2014;11(11):1402-1413. doi:10.1080/15476286.2014.996472