Практикум 7. PWM и LOGO
task 1. mini KR
мини КР - отправлено преподавателю
task 2. KR (вариант 4)
Скачать таблицу
В задании требовалось вычислить информационное содержание (IC) последовательностей Козак в геноме данио рерио и построить LOGO этого сигнала.
СG-content генома данио рерио составляет 38.6%.
Выравнивание контекстов ATG для одиннадцати белков взято из статьи Grzegorski et al., PLoS ONE 9(9): e108475, 2014.
По ссылке выше можно скачать файл с результатом: матрицей с информационными содержаниями отдельных букв и колонок; итоговое информационное содержание сигнала; формула для вычисления элемента матрицы.
Получилось, что суммарное IC = 10,4757644747296.
Картинка LOGO:
3. Проверка PWM для сайтов регуляции разрывной транскрипции sgmRNA
LOGO для последовательностей Козак поздних генов моего коронавируса. Отдаленно напоминает LOGO для последовательностей Козак генов человека.
У моего вируса нет других штаммов, он один такой опасный.
LOGO для последовательностей Козак поздних генов коронавируса из того же рода (Severe acute respiratory syndrome-related coronavirus):
далее на кодомо я запустила команду фимо:
fimo —oc . —verbosity 1 —output-pthresh 1.0E-5 —norc meme.txt sarscov2.fastaВыдача FMIMO:
а еще FIMO выдал 3 лучших возможных совпадений:
MOTIF WIDTH BEST POSSIBLE MATCH 1 16 TCACGTCTAAACGAAC 2 13 GCTGCAGATTTGG 3 11 TCTTGTAGATC