IC и LOGO мотивов у Danio rerio

Файл с расчётами.

Теоретические обоснования расчётов были озвучены на лекции и частично приведены в презентации. GC-content был взят из файла предыдущего практикума (GC-content = 0.386), из него получены ожидаемые частоты p(b). По выравниванию построена позиционная частотная матрица (PFM), с наблюдаемыми частотами f(b), затем на её основе - позиционная весовая матрица (PFM). Из полученных данных считаем информационное содержание (IC) для отдельных нуклеотидов на позиции IC(b,j) и позиции в целом IC(b).

Формула для PWM без псевдоотчётов:

w(b, j) = log2(f(b,j)/p(b))

Формула для IC:

IC(b, j) = f(b)*w(b,j)

LOGO мотива
Рисунок 1. LOGO мотива.

FIMO коронавируса

Мотивы, найденные MEME в геноме моего вируса, я сначала наложила на свой же геном. Мотив 5'-TTAAATCTAAAC-3' включает в себя референсный 5'‐AATCTAAAC‐3'. Другие мотивы тоже нашлись.

Мотивы, найденные MEME в геноме моего вируса, я также наложила с помощью FIMO на геном вируса другого штамма (HKU1 strain SC2628) и другого вида (NL63) коронавирусов. В геноме другого штамма (HKU1 strain SC2628) этого же вида ситуация такая же. У другого вида тоже, нуклеотиды с 5' конца от CS не совпадают, но самой CS - совпадают, и везде по координатам перед генами без перекрываний!

Отчёт FIMO для HKU1.

Отчёт FIMO для HKU1 strain SC2628.

Отчёт FIMO для NL63.