Сигналы и массивы 1


Интересный сигнал.
Оператор NikR присутствует в E.coli и состоит из двух симметричных последовательностей 5′-GTATGA-3′, которые разделяются 16-ю парами нуклеотидов. В случае продолжительного поступлении ионов никеля в клетку, NikR в форме димера связывает ионы никеля и препятствует транскрипции белка nikABCDE, который необходим для импорта никеля в клетку. Этот оператор является очень сильным и высокоэффективным. (DOI: https://doi.org/10.1074/jbc.M002232200)

PWM.
Для выполнения этого задания я использовал предоставленную таблицу генов человека, получил с помощью Microsoft Excel из нее более сжатый вариант (столбцы strand, thickStart, thickEnd, строки - chr19), для поиска старт-кодонов в файле с последовательностью 19 хромосомы человека из NCBI применил скрипт, предоставленный Артёмом Бурлакой. Получил файл с сотней последовательностей Козак. Для поиска старт-кодонов и случайных ATG фрагментов коронавируса использовал предоставленные Владиславом Мурзиным скрипты. Получил соответствующие файлы с выравниваниями без гэпов(см. выше). На основе "выравнивания" старт-кодонов человека построил PWM. Ниже можно видеть гистограммы, показывающие распределение весов окрестностей ATG в геноме SARS-CoV-2. Можно заметить, что среднее значение для старт-кодонов больше, чем для случайных ATG-кодонов, но последовательностей недостаточно для заключения однозначного вывода.

Рис.1. Гистограмма распределения весов окрестностей ATG

IC
С помощью Python получена матрица IC.

Рис.2. LOGO последовательности Козак