Вариант 4. Было получено выравнивание 11 последовательностей. Для него было построено LOGO.
Также была построена матрица информационного содержания для отдельных букв и колонок, где IC(b,j)=f(b,j)*log2[f(b,j)/p(b)], IC(j)=Σ(f(b,j)*log2[f(b,j)/p(b)]), IC=ΣIC(j), f(b,j)=N(b,j)/N. P(G)=P(C)=0,193; P(A)=P(T)=0,307.
-4 | -3 | -2 | -1 | A | T | G | 4 | 5 | |
A | 0,257357234 | 1,157058673 | 0,088821026 | -0,137407669 | 1,703689439 | 0 | 0 | -0,159612925 | 0,257357234 |
C | 0,332325683 | 0 | -0,098736761 | 0,332325683 | 0 | 0 | 0 | 0 | 0,136052217 |
G | -0,098736761 | -0,01565534 | -0,01565534 | 0,561738056 | 0 | 0 | 2,373327247 | 2,032567021 | 0,136052217 |
T | -0,159612925 | 0 | 0,088821026 | 0 | 0 | 1,703689439 | 0 | 0 | 0 |
IC(j) | 0,331333231 | 1,141403332 | 0,06324995 | 0,75665607 | 1,703689439 | 1,703689439 | 2,373327247 | 1,872954096 | 0,529461669 |
Общее IC равно 10,47576.
Из генома Ferret coronavirus isolate FRCoV-NL-2010 (AC:NC_030292) были вырезаны последовательности с -9 до 4 позиции для всех генов, там где должны быть последовательности Козак. Было получено Logo этих последовательностей.
Как видно из сравнения Logo последовательности Козак вируса и человека (2 картинка) у них мало совпадающих нуклеотидов, вероятно из-за того, что хозяином данного вируса является хорёк.
Затем была взяты upstream последовательности из предыдущего практикума и они были обработаны программой FIMO для обнаружения и оценки мотивов. Все 3 мотива из практикума 6 были найдены. Снизу на картинке можно увидеть вывод FIMO для 1 мотива.
Также были получены выдачи FIMO с теми же мотивами для генома вируса другого вида - Mink coronavirus strain WD1127 (1 картинка снизу) и другого подрода - Human coronavirus 229E (2 картинка снизу). В NCBI не оказалось геномов вирусов других штаммов Ferret coronavirus. Для вируса другого вида было найдено 7 находок с p-value < 0.0001. Координаты мотива у 1 гена совпали, однако у других генов координаты изменились. У вируса другого подрода было найдено 6 находок и все координаты различались.
Назад