Практикум 7. PWM и LOGO

task 1. mini KR

мини КР - отправлено преподавателю

task 2. KR (вариант 4)

Скачать таблицу

В задании требовалось вычислить информационное содержание (IC) последовательностей Козак в геноме данио рерио и построить LOGO этого сигнала.
СG-content генома данио рерио составляет 38.6%.
Выравнивание контекстов ATG для одиннадцати белков взято из статьи Grzegorski et al., PLoS ONE 9(9): e108475, 2014.
По ссылке выше можно скачать файл с результатом: матрицей с информационными содержаниями отдельных букв и колонок; итоговое информационное содержание сигнала; формула для вычисления элемента матрицы.
Получилось, что суммарное IC = 10,4757644747296.


Картинка LOGO:

LOGO

3. Проверка PWM для сайтов регуляции разрывной транскрипции sgmRNA

LOGO для последовательностей Козак поздних генов моего коронавируса. Отдаленно напоминает LOGO для последовательностей Козак генов человека.

LOGO1


У моего вируса нет других штаммов, он один такой опасный.
LOGO для последовательностей Козак поздних генов коронавируса из того же рода (Severe acute respiratory syndrome-related coronavirus):

LOGO2


далее на кодомо я запустила команду фимо:


fimo —oc . —verbosity 1 —output-pthresh 1.0E-5 —norc meme.txt sarscov2.fasta
Выдача FMIMO:

FIMO

а еще FIMO выдал 3 лучших возможных совпадений:
MOTIF	WIDTH	BEST POSSIBLE MATCH
1	16	TCACGTCTAAACGAAC
2	13	GCTGCAGATTTGG
3	11	TCTTGTAGATC