В конце прошлого века учёными in vitro были обнаружены четырехцепочечные крестообразные вторичные структуры нуклеиновых кислот, образующиеся в C-богатых последовательностях и в дальнейшем названные i-мотивами. Конструкция удерживается за счёт неканонических взаимодействий между парами оснований цитозина, один из которых протонирован. Вследствие этого структура стабильна в более кислотных pH, что долгие годы подвергало сомнению её возможное существование внутри живых клеток, однако недавние исследования подтвердили присутствие i-мотивов in vivo и пролили свет на их биологическую роль.
Так, была обнаружена связь формирования i-мотивов с транскрипцией, репликацией и ингибированием теломеразы, а также были найдены белки, связывающиеся с i-мотивами и имеющие фундаментальное значение для регуляции экспрессии генов.
Литература
Hala Abou Assi, Miguel Garavís, Carlos González, Masad J Damha, i-Motif DNA: structural features and significance to cell biology, Nucleic Acids Research, Volume 46, Issue 16, 19 September 2018, Pages 8038–8056, https://doi.org/10.1093/nar/gky735.
В данном задании исследуется последовательности Козак человека. Полный скрипт доступен по ссылке.
Были отобраны случайные последовательности 100 генов человека, взятые из 11-ой хромосомы прямой цепи. Для каждого из генов были взяты участки -7 + ATG + 3 (последовательности, не содержашие старт-кодон были отфильтрованы). Полученные последовательности были разделены на тренировочные и тестовые.
В качестве негативного контроля брались удалённые как минимум на 70 нуклеотидов от старт-кодона участки вокруг нестартовых ATG.
Файлы с поседовательностями: тренировочные, тестовые, отриц. тестовые.
Для дальнейших вычислений был взят средний GC состав для 11-ой хромосомы, равный 41.54.
Источник: Piovesan, A., Pelleri, M.C., Antonaros, F. et al. On the length, weight and GC content of the human genome. BMC Res Notes 12, 106 (2019). https://doi.org/10.1186/s13104-019-4137-z.
print(f"Всего последовательностей:{len(seqs_13)} \
Тренировочные:{len(seqs_train)} Контроль:{len(seqs_test)} \
Отриц.контроль:{len(seqs_neg)}" )
pwm
print(f"Средний вес положительного контроля: {np.mean(test_weight)} \nСредний вес отрицательного контроля: {np.mean(negtest_weight)}")
print(mannwhitneyu(test_weight, negtest_weight, alternative='two-sided'))
Была построена PWM для ранее полученных последовательностей. Далее она была протестирована на + и - контроле. По результатам теста Манна-Уитни для полученных тестовых весов на уровне значимости 1% вес положительного контроля выше отрицательного.
В данном задании по последовательностям, по которым строилась PWM, была получена матрица информационного содержания (IC).
ic
print(f'Суммарный сигнал: {ic.iloc[-1].sum()}')
Image(filename="./logo.png")
При помощи сервиса WebLOGO3 была получена вышестоящая диаграмма. Из неё видно, что последовательность Козак GC-богата, в особенности до старт-кодона. Однако в целом сигнал можно охарактеризовать как слабый.