Практикум 6.

Интересный сигнал.

У Escherichia coli в точке начала репликации есть сайт специфичного связывания фактора DnaA. Он содержит фрагменты с консенсусной последовательностью TTATNCACA. Посадка инициаторного фактора вызывает сборку инициаторных комплексов. Это высокоэффективный сигнал. Источник: https://doi.org/10.1016/j.plasmid.2009.06.003

PWM.

Для выполнения этого задания я использовал предоставленную таблицу генов человека, получил с помощью Microsoft Excel из нее более сжатый вариант(столбцы strand, thickStart, thickEnd, строки - chr9), по которому средствами Python искал старт-кодоны в файле с последовательностью 9 хромосомы человека с NCBI(GC состав - 41%(там же)). Получил файл с сотней последовательностей Козак. Для поиска старт-кодонов и случайных ATG фрагментов коронавируса использовал любезно предоставленные Владиславом Мурзиным скрипты. Получил соответствующие файлы с выравниваниями без гэпов(см. выше). На основе "выравнивания" старт-кодонов человека построил PWM.

Ниже можно видеть гистограммы, показывающие распределение весов окрестностей ATG в геноме SARS-CoV-2. Заметно что среднее для старт-кодонов больше, однако последовательностей слишком мало для однозначных выводов.

Рис. 1.

IC

С помощью средств Python получена матрица IC.

Рис. 2. LOGO последовательности Козак