Вычисление информационного содержания (IC) последовательностей Козак в геноме Danio rerio и построение LOGO этого сигнала

В этом задании было нужно проанализировать выравнивание последовательностей Козак, вычислить информационное содержание и прстроить LOGO для этого выравнивания.

Чтобы посчитать IC сначала я посчитала количество разных нуклеотидов в колонках, затем посчиатала частоты нуктеотидов и матрицу весов. Использя полученные данные, я посчитала инфомационное содеражние для каждого нуклетида в колонке, для кадой колонки и суммарное информационоое содержание для этого участка. Все вычесления находятся в файле, который можно скачать по ссылке.

Воспользовавшись сервисом webLOGO, я постороила LOGO. Он представлен на рисунке 1.

LOGO

Рисунок 1.

Проверка PWM для сатов регуляции разрывной транскрипции sgmRNA

В этом задании нужно было проверить мотив, который мы получили в предыдущем практикуме с помощью сервиса MEME. Для проверки был использован сервис FIMO. Я использовала этот сервис на сервере кодомо. При помощи команды fimo --oc result --verbosity 1 --norc meme.txt sequence.fasta я получила таблицу, которая представлениа на рисунке 2.

FIMO

Рисунок 2.

Еще программа FIMO выдала мне лучшее возможное совпадение:

MOTIF	WIDTH	BEST POSSIBLE MATCH
1	8	GACACCAA

Как видно из таблицы, было найдено 9 мотивов, это согласуется с утверждением, что один мотив должен находмиться перед началом гена ORF1ab полипротеина, и по одному мотиву перед каждым поздним геном. Координаты получились немного странные и я не знаю, с чем это связано.

Воспользовавшись сервисом webLOGO, я постороила LOGO по выдаче FIMO. Он представлен на рисунке 3.

LOGO

Рисунок 3.

Можно добавить, что этот LOGO очень похож на LOGO этого же мотива из выдачи MEME (cм. практикум 6)

Данного вида короновирус оказался только один, поэтому я взяла короновирус такого же подрода Bulbul coronavirus HKU11-934. Для него я получила мотив: ACACCATTCC.

Еще один короновирус я взяла того же рода Night-heron coronavirus HKU19 strain HKU19-6918. Для него я получила следующий мотив: TGCAGAGTG.

Все эти мотивы не похожи друг на друга. Из этого можно сделать, что мотив специфичен для каждого конкретного короновируса.