Практикум 7. Сигналы и мотивы II

Вычисление информационного содержания (IC) последовательностей Козак в геноме данио рерио и построение LOGO этого сигнала

Взял выравнивание из 2 варианта. Для выравнивания посчитал количество нуклеотидов в каждой позиции и наблюдаемые частоты встречаемости нуклеотидов.

Матрицу PMW не считал, сразу подставлял в формулу для подсчета IC (но считал без псевдокаунтов).

Базовые частоты встречаемости нуклеотидов взял из данных по Danio Rerio.

Формула, которая использовалась для расчета IC:

 IC(b,j) = f(b,j)*log2[f(b,j)/p(b)] 

Ссылка на таблицу.

С помощью сервиса http://weblogo.berkeley.edu/logo.cgi получил лого-картинку.

мое фото

В каждой позиции каждая буква изображается прямоугольником высоты, равной её информационному содержанию. Судя по всему, LOGO не нравятся позиции для которых мало информации, так как в первой позиции ничего нет.

Поиск мотива в геноме Human coronavirus HKU1 с помощью программы FIMO.

Для выполнения этого задания использовался мотив из прошлого практикума. По html выдаче meme проводился поиск мотива в геномах исходного генома, в геноме другого штамма - Betacoronavirus HKU24, а также в геноме родственного короновируса Middle East respiratory syndrome coronavirus.
fimo --o pr7_res --motif 1 --norc meme.txt pr_7_fullseq.fasta

Для других геномов fimo запускалось с аналогичными параметрами. Результат работы fimo можно скачать:

Human coronavirus HKU1

Middle East respiratory syndrome coronavirus

Betacoronavirus HKU24

Также находки fimo для исходного генома представлены на рисунке ниже. Можно увидеть, что с хорошими e-value fimo нашел мотив как раз в upstream областях генов.

мое фото

В других геномах нашлось 5 и 6 находок соответственно. Находки в другом штаме имеют неплохой e-value, да и расположение мотивов частично совпадает с мотивами в исходном геноме. Однако находки из родственного вируса не так хороши, я бы предположил, что они не так уж и близки, либо данный мотив является специфичным для этого штамма.

Возможно я допустил какую-то фатальную ошибку при выполнении 6 практикума, однако находки из генома другого штамма уж очень хороши и очень похожи на находки из изначального генома (генома Human coronavirus HKU1).

Из минусов выделенного мотива могу выделить его длинну (уж очень длинный получился), далеко не самый консервативный левый хвост (однако правый хвост очень консервативен и встречается в US области практически каждого гена).

Из генома Human coronavirus HKU1 были вырезаны последовательности с -9 до 4 позиции для всех генов, там где должны быть последовательности Козак. Было получено Logo этих последовательностей.

мое фото

Logo последовательности Козак человека

мое фото

LOGO для моего вируса похожи с LOGO для человека по позициям -3 (А), -4 (С) и +2 (А). Однако это может оказаться простым совпадением, так как информационное содержание не высоко.