Интересный сигнал.
Оператор NikR присутствует в E.coli и состоит из двух симметричных последовательностей 5′-GTATGA-3′, которые разделяются 16-ю парами нуклеотидов.
В случае продолжительного поступлении ионов никеля в клетку, NikR в форме димера связывает ионы никеля и препятствует транскрипции белка nikABCDE,
который необходим для импорта никеля в клетку. Этот оператор является очень сильным и высокоэффективным.
(DOI: https://doi.org/10.1074/jbc.M002232200)
PWM.
Для выполнения этого задания я использовал предоставленную таблицу генов человека, получил с помощью Microsoft Excel из нее более сжатый вариант
(столбцы strand, thickStart, thickEnd, строки - chr19), для поиска старт-кодонов в файле с последовательностью 19 хромосомы человека из
NCBI применил скрипт, предоставленный Артёмом Бурлакой.
Получил файл с сотней последовательностей Козак. Для поиска старт-кодонов
и случайных ATG фрагментов коронавируса использовал предоставленные Владиславом Мурзиным скрипты.
Получил соответствующие файлы с выравниваниями без гэпов(см. выше). На основе "выравнивания" старт-кодонов человека построил PWM.
Ниже можно видеть гистограммы, показывающие распределение весов окрестностей ATG в геноме SARS-CoV-2.
Можно заметить, что среднее значение для старт-кодонов больше, чем для случайных ATG-кодонов, но последовательностей недостаточно для заключения однозначного вывода.
IC
С помощью Python получена матрица IC.