Практикум 7. Сигналы и мотивы II

Задание 2.

Нужно вычислить IC (информационное содержание, information content) последовательностей* Козак в геноме Danio rerio и создать его LOGO.

*Выравнивание (вариант 7)
    cagcatgac
    aaacatggg
    caaaatggt
    caacatgtc
    aaccatgga
    gacaatggc
    aattatggc
    gaatatggc
    gaagatgga
    caagatgtc
    cagcatgtc
    aatcatgga

IC вычисляется по следующим формулам:

    (1) IC(b, j) = f(b, j) * log2(f(b, j) / p(b))
    (дополнительное условие: если f(b, j) = 0, то IC(b, j) = 0) 
(2) IC(j) = ΣbasesIC(b, j)
(3) IC = ΣpositionsIC(j)
Вычисление IC
IC(b, j) 0 1 2 3 4 5 6 7 8
A 0.039576 1.703689 0.351845 -0.146879 1.703689 0.000000 0.000000 -0.156773 -0.074078
C 0.462622 0.000000 -0.035273 0.686664 0.000000 0.000000 0.000000 0.000000 0.930836
G 0.093332 0.000000 -0.035273 -0.035273 0.000000 0.000000 2.373327 1.192243 -0.100970
T 0.000000 0.000000 -0.146879 -0.146879 0.000000 1.703689 0.000000 -0.074078 -0.156773
IC(j) 0 1 2 3 4 5 6 7 8
A+C+G+T 0.595529 1.703689 0.134421 0.357633 1.703689 1.703689 2.373327 0.961393 0.599016

TOTAL IC: 10.132

LOGO
LOGO
Ссылка на загрузку .ipynb с вычислениями IC

Задание 3. Проверка PWM для сайтов регуляции разрывной транскрипции sgmRNA

Для обнаружения мотивов в геноме Magpie-robin coronavirus HKU18 был использован результат комманды из пакета MEME (а не с сайта, как в практикуме 6)

meme upstream_sequences.fasta -dna -nmotifs 3 -minw 6 -maxw -50

Отличие от предыдущего практикума состоит в том, что был захвачен более длинный upstream регион (для поздних белков: -200, в стандартном случае получить нормальный результат FIMO трудно)

Ссылка на результат работы FIMO fimo.txt

Для создания LOGO последовательности Козак были использованы последовательности с координатами от -10 до 4 для всех генов.

kozak_logo
Рисунок 2.
LOGO последовательности Козак вируса

Как можно заключить из следующего изображения, последовательность Козак вируса почти не совпадает с человеческой

human
Рисунок 3.
LOGO последовательности Козак человека (взято с англоязычной Википедии)

К сожалению, для доказательства специфичности не нашлось секвенированных геномов вирусов такого же вида, но отличных по штамму. Зато было проведено сравнение мотивов с мотивами Bulbul coronavirus HKU11-934. Можно сказать, что схожие (возможно CS) последовательности есть (ACACCA), хотя они в достаточной мере вариабельны как в геноме изучаемого мною вируса, так и в геноме его родственника (хотя большое сходство есть, даже upstream координаты близки и примерно равны -170 нуклеотидов)

Ссылка на результат работы FIMO relative_fimo.txt

Номер Наименование гена Белковый продукт Координаты
1 orf1ab replicase polyprotein join(596..11434,11434..19356)
2 S spike glycoprotein 19338..22991
3 E envelope protein 22985..23233
4 M membrane protein 23226..23882
5 NS6 NS6 protein 23882..24172
6 N nucleocapsid protein 24355..25395
7 NS7a NS7a protein 25407..25580
8 NS7b NS7b protein 25561..25932
9 NS7c NS7c protein 25941..26195
Таблица 3.
Дополнительная информация, координаты генов Magpie-robin coronavirus HKU18
Вернуться на страницу семестра