Практикум №7

Информационное содержание последовательности Козак

Вариант №2. Задание №1

В таблице 1 была посчитана частота встречаемости нуклеотидов по позициям, построены матрицы PWM (без псеводокаунтеров, в таблице стоит значение 0, но его можно изменить) и IC для выравнивания десятка контекстов ATG у Danio Rerio с помощью Excel

Формула для расчета матрицы IC:

IC(b,j) = f(b,j)*log2[f(b,j)/p(b)] 

f(b,j) - наблюдаемая частота

p(b) - ожидаемая частота

Задание №2

С помощью WebLogo был получен рис.1 (лого-картинка), где сигналы букв имеют высоту, равную их информационному содержанию

Logo

рис.1

Проверка находок MEME для сайтов регуляции разрывной транскрипции sgmRNA

Были найдены участки последовательностей генов вируса с координатами -9..4

Ссылка на файл с последовательностями

При помощи сервиса LOGO было получено изображение, на котором сигнала буквы имеют высоту, равную информационному содержанию букв (рис.2)

Logo

рис.2

Logo

Последовательность Козак для человека

В целом LOGO довольно сильно различаются. Предположительно это связано с тем фактом, что человек не является хозяином выбранного мною вируса. Хотя можно отметить небольшое совпадение в -1 и -3 позициях

С помощью FIMO был произведен поиск по найденному в MEME мотиву. Было найдено всего 3 мотива.

Результаты представлены в таблице 1

Fimo

таблица 1

Выдача FIMO

Выдача FIMO после изменения порога

Для описания находо сигнала FIMO SARS-CoV-2 и Bat coronavirus HKU4-1

Fimo

Выдача FIMO для SARS-CoV-2

Fimo

Выдача FIMO для Bat coronavirus HKU4-1

Находок оказалось мало, их координаты различаются. Хотя сами мотивы оказались примерно одинаковыми. Вспомним, что e-value мотива в MEME было дотаточно большим. Предполагаю, что мотив не является точным

Вернуться на главную страницу