1. "core region" длиной около 40 нуклеотидов, которая необходима для синтеза + цепи и содержит три различных, частично перекрывающихся сигналов:
2. "a secondary region" длиной около 100 нуклеотидов, необходимая только для инициации синтеза + цепи. Разрушение этой области не приводит к полной остановки функционирования f1, но значительно снижает его работу. Интересно, что вторичная область может быть прервана большими вставками чужеродной ДНК без сузщественного влияния на репликации. В нижеприведенной статье авторы пытаются найти объяснение этому факту.
Для выполнения этого задания я выбрала одну из предложенных последовательностей - последовательность Козак. Она представляет собой окрестность ATG кодона - старта транскрипции в человечском геноме. В ходе задания я адаптировала скрипт Георгия Муравьева и выражаю ему огромную благодарность. На вход скрипту дается последовательность генов человека human-genes.tsv. Скрипт выдал следующие fasta-файлы:
1. последовательности для обучения - 100 штук
2. последовательность для тестирования - 100 штук
3. последовательность для негативного контроля - 100 штук
Позиционная весовая матрица была построена на материалах для обучения и приведена ниже:
На основе вышеприведенной таблицы я посчитала веса последовательностей, затем составила гистограмму.
На Рис.2 можно заметить, что гистограмма отрицательного контроля сдвинута влево по сравнению с остальными гистограммами. Я посчитала правильным выбрать в качестве верных такие последовательности, вес которых выше 37, исходя из вышеприведенной гистограммы. То есть пороговый вес - 37. Далее я построила матрицу результатов проверки.
Затем я получила матрицу информационного содержания
С использованием сервиса WebLOGO 3 я построила LOGO:
Для выполнения этого задания я выбрала штамм Escherichia coli O83:H1. В геноме получен 656 сайт последовательности GAATTC. Ожидаемое число этих сайтов составило 1162. Для оценки различий использовалось биномиальное распределение. Различие оказалось статичстически значимым, тк p-value = 4.8e-59