В таблице 1 была посчитана частота встречаемости нуклеотидов по позициям, построены матрицы PWM (без псеводокаунтеров, в таблице стоит значение 0, но его можно изменить) и IC для выравнивания десятка контекстов ATG у Danio Rerio с помощью Excel
Формула для расчета матрицы IC:
IC(b,j) = f(b,j)*log2[f(b,j)/p(b)]
f(b,j) - наблюдаемая частота
p(b) - ожидаемая частота
С помощью WebLogo был получен рис.1 (лого-картинка), где сигналы букв имеют высоту, равную их информационному содержанию
рис.1
Были найдены участки последовательностей генов вируса с координатами -9..4
Ссылка на файл с последовательностями
При помощи сервиса LOGO было получено изображение, на котором сигнала буквы имеют высоту, равную информационному содержанию букв (рис.2)
рис.2
Последовательность Козак для человека
В целом LOGO довольно сильно различаются. Предположительно это связано с тем фактом, что человек не является хозяином выбранного мною вируса. Хотя можно отметить небольшое совпадение в -1 и -3 позициях
С помощью FIMO был произведен поиск по найденному в MEME мотиву. Было найдено всего 3 мотива.
Результаты представлены в таблице 1
таблица 1
Выдача FIMO после изменения порога
Для описания находо сигнала FIMO SARS-CoV-2 и Bat coronavirus HKU4-1
Выдача FIMO для SARS-CoV-2
Выдача FIMO для Bat coronavirus HKU4-1
Находок оказалось мало, их координаты различаются. Хотя сами мотивы оказались примерно одинаковыми. Вспомним, что e-value мотива в MEME было дотаточно большим. Предполагаю, что мотив не является точным