Практикум 6. Сигналы и мотивы

i-Motif

В конце прошлого века учёными in vitro были обнаружены четырехцепочечные крестообразные вторичные структуры нуклеиновых кислот, образующиеся в C-богатых последовательностях и в дальнейшем названные i-мотивами. Конструкция удерживается за счёт неканонических взаимодействий между парами оснований цитозина, один из которых протонирован. Вследствие этого структура стабильна в более кислотных pH, что долгие годы подвергало сомнению её возможное существование внутри живых клеток, однако недавние исследования подтвердили присутствие i-мотивов in vivo и пролили свет на их биологическую роль.

Так, была обнаружена связь формирования i-мотивов с транскрипцией, репликацией и ингибированием теломеразы, а также были найдены белки, связывающиеся с i-мотивами и имеющие фундаментальное значение для регуляции экспрессии генов.

Литература

Hala Abou Assi, Miguel Garavís, Carlos González, Masad J Damha, i-Motif DNA: structural features and significance to cell biology, Nucleic Acids Research, Volume 46, Issue 16, 19 September 2018, Pages 8038–8056, https://doi.org/10.1093/nar/gky735.

Построение PWM для последовательности Козак человека

В данном задании исследуется последовательности Козак человека. Полный скрипт доступен по ссылке.

Были отобраны случайные последовательности 100 генов человека, взятые из 11-ой хромосомы прямой цепи. Для каждого из генов были взяты участки -7 + ATG + 3 (последовательности, не содержашие старт-кодон были отфильтрованы). Полученные последовательности были разделены на тренировочные и тестовые.

В качестве негативного контроля брались удалённые как минимум на 70 нуклеотидов от старт-кодона участки вокруг нестартовых ATG.

Файлы с поседовательностями: тренировочные, тестовые, отриц. тестовые.

Для дальнейших вычислений был взят средний GC состав для 11-ой хромосомы, равный 41.54.

Источник: Piovesan, A., Pelleri, M.C., Antonaros, F. et al. On the length, weight and GC content of the human genome. BMC Res Notes 12, 106 (2019). https://doi.org/10.1186/s13104-019-4137-z.

In [336]:
print(f"Всего последовательностей:{len(seqs_13)} \
Тренировочные:{len(seqs_train)} Контроль:{len(seqs_test)} \
Отриц.контроль:{len(seqs_neg)}" )
Всего последовательностей:82 Тренировочные:33 Контроль:49 Отриц.контроль:49
In [331]:
pwm
Out[331]:
0 1 2 3 4 5 6 7 8 9 10 11 12
A -0.186 -0.186 -0.464 -0.186 0.209 -0.072 -0.638 1.208 -3.683 -3.683 -0.638 -0.186 -0.849
T -0.072 -0.849 -0.186 -0.638 -0.849 -0.638 -2.073 -3.683 1.208 -3.683 -0.849 0.031 0.124
C 0.156 -0.296 0.373 0.833 -0.776 0.551 1.053 -3.341 -3.341 -3.341 0.026 0.270 -0.296
G 0.156 0.833 0.270 -0.508 0.702 0.026 0.026 -3.341 -3.341 1.549 0.893 -0.122 0.629
In [325]:
print(f"Средний вес положительного контроля: {np.mean(test_weight)} \nСредний вес отрицательного контроля: {np.mean(negtest_weight)}")
print(mannwhitneyu(test_weight, negtest_weight, alternative='two-sided'))
Средний вес положительного контроля: 5.381510204081633 
Средний вес отрицательного контроля: 4.715938775510204
MannwhitneyuResult(statistic=1574.0, pvalue=0.008043377770549727)

Была построена PWM для ранее полученных последовательностей. Далее она была протестирована на + и - контроле. По результатам теста Манна-Уитни для полученных тестовых весов на уровне значимости 1% вес положительного контроля выше отрицательного.

Матрица информационного содержания

В данном задании по последовательностям, по которым строилась PWM, была получена матрица информационного содержания (IC).

In [321]:
ic
Out[321]:
0 1 2 3 4 5 6 7 8 9 10 11 12
A -0.065 -0.065 -0.125 -0.065 0.115 -0.027 -0.144 1.774 0.000 0.000 -0.144 -0.065 -0.154
T -0.027 -0.154 -0.065 -0.144 -0.154 -0.144 -0.099 0.000 1.774 0.000 -0.154 0.016 0.063
C 0.054 -0.069 0.165 0.593 -0.108 0.294 0.936 0.000 0.000 0.000 0.006 0.107 -0.069
G 0.054 0.593 0.107 -0.094 0.437 0.006 0.006 0.000 0.000 2.267 0.675 -0.035 0.364
IC(col) 0.015 0.305 0.082 0.290 0.289 0.129 0.700 1.774 1.774 2.267 0.384 0.023 0.204
In [330]:
print(f'Суммарный сигнал: {ic.iloc[-1].sum()}')
Суммарный сигнал: 8.236
In [292]:
Image(filename="./logo.png") 
Out[292]:

При помощи сервиса WebLOGO3 была получена вышестоящая диаграмма. Из неё видно, что последовательность Козак GC-богата, в особенности до старт-кодона. Однако в целом сигнал можно охарактеризовать как слабый.