Отчет за практикум 6

1. SECIS-элемент

Микроэлемент селен включен в физиологию человека в виде селеноцистеина (Sec). 25 белков в организме человека, содержащих Sec, известны как селенопротеины. Их синтез зависит от трансляционной перекодировки стоп-кодона UGA, позволяющей вставлять Sec. Для этого требуется шпилька в 3'-нетранслируемой области эукариотических мРНК, известная как последовательность вставки селеноцистеина (Selenocysteine Insertion Sequence или SECIS). SECIS распознается SECIS-связывающим белком 2 (SBP2), и это взаимодействие необходимо для осуществления перекодирования UGA.[1] Сигнал является высокоэффективным, так как в противном случае, если SBP2 не прореагирует на сигнал, трансляция селенопротеина не пройдет до конца.

2. Построение матрицы PWM

Для выполнения задания я решила работать с последовательностью Козак в геноме человека. С помощью скрипта, написанного Георгием Муравьевым, я получила следующие файлы:

kozak-learn.fasta - 500 последовательностей для обучения
kozak-test.fasta - 500 последовательностей для тестирования
pseudokozak1.fasta - 500 последовательностей для негативного контроля
result.csv - позиционная весовая матрица с псевдоотсчетами
ic.csv - матрица информационного содержания IC(b,j) для выравнивания,
hist.svg - гистограммы весов в svg формате
hist.png - гистограммы весов в png формате
check.csv - таблица результатов проверки

По материалам для обучения была построена позционная весовая матрица (PWM):

Таблица 1 Позиционная весовая матрица
letter 1 2 3 4 5 6 7 8 9 10 11 12 13
A -0.32 -0.44 -0.26 -0.22 0.41 0.08 -0.34 1.22 -6.60 -6.60 -0.31 0.00 -0.40
T -0.29 -0.35 -0.40 -0.73 -1.35 -0.79 -1.18 -6.60 1.22 -6.60 -0.62 -0.50 -0.27
G 0.28 0.56 0.32 0.13 0.49 -0.08 0.33 -6.24 -6.24 1.58 0.82 -0.19 0.50
C 0.37 0.17 0.35 0.64 -0.35 0.56 0.71 -6.24 -6.24 -6.24 -0.23 0.55 0.16

Затем по данным PWM были рассчитаны веса последовательностей и построена гистограмма их распределения. Исходя из гистограммы был выбран порог веса 4, выше которого находка может считаться правильной.

Рис. 1 Гистограмма распределения весов

Распределения весов элементов тренировочной и тестовой выборок совпадают, распределение для отрицательного контроля отличается, оно смещено влево (Рис. 1).

Таблица 2 Результаты проверки находок при пороге веса 4
Обучение Положительный контроль Отрицательный контроль
Cигнал(+) 385 (77.0%) 374 (74.8%) 142 (28.4%)
Cигнал(-) 115 (23.0%) 126 (25.2%) 358 (71.6%)

3. Вычисление информационного содержания сигнала из задания 2 и построение Logo

Была получена матрица информационного содержания и с использованием сервиса "WebLOGO 3" построено LOGO.

Таблица 3 Матрица информационного содержания
letter 1 2 3 4 5 6 7 8 9 10 11 12 13
A -0.10 -0.12 -0.08 -0.08 0.27 0.04 -0.10 1.76 0.00 0.00 -0.10 0.00 -0.11
T -0.09 -0.10 -0.11 -0.15 -0.15 -0.15 -0.15 0.00 1.76 0.00 -0.14 -0.13 -0.09
G 0.11 0.29 0.13 0.04 0.24 -0.02 0.13 0.00 0.00 2.29 0.55 -0.05 0.24
C 0.16 0.06 0.15 0.36 -0.07 0.29 0.42 0.00 0.00 0.00 -0.06 0.28 0.05
IC(j) 0.07 0.12 0.08 0.18 0.28 0.15 0.30 1.76 1.76 2.29 0.25 0.11 0.10
Рис. 2 LOGO для последовательности Козак в геноме человека

4. Число сайтов GAATTC в полном геноме одного штамма E.coli

Для подcчета числа сайтов GAATTC я использовала штамм Escherichia coli str. K-12 substr. MG1655 и скрипт, написанный Георгием Муравьевым.

Было обнаружено 646 сайтов GAATTC в геноме Escherichia coli, что меньше ожидамого числа - 1097. p-value=1.770*10^(-49) (биномиальное распределение), следовательно, различие статистически значимо; и можно сказать, что GAATTC действительно встречается реже ожидаемого.

Литература

1) Bubenik JL, Miniard AC, Driscoll DM. Characterization of the UGA-recoding and SECIS-binding activities of SECIS-binding protein 2. RNA Biol. 2014;11(11):1402-1413. doi:10.1080/15476286.2014.996472