Сигналы и мотивы

Ссылка на PWM таблицу здесь. Сначала были посчитаны частоты по формуле F(b,j) = (N(b,j) + e(b))/(N + e), где e(b)=0,1, а e=0,4 - псевдокаунты. В таблицу PWM были записаны значения = ln(f(b,j)/P(b)), где P(b) - частота нуклеотида в геноме (GC состав - 42%).

Для выполнения практикума был выбран геном вируса Ferret coronavirus isolate FRCoV-NL-2010 (AC:NC_030292). Были получены upstream последовательности до гена orf1ab и для всех 7 поздних генов. При этом анализировались 100 нуклеотидов до каждого из поздних генов. Последовательности были обработаны сервисом MEME Suit, в результате 1 запуска которого были найдены мотивы на картинке ниже.

Как видно из первой выдачи, мотив, встречающийся во всех последовательностях - AACTAAAC. В следующем запросе meme был осуществлен поиск только по 1 мотиву.

Так как значения p-value и e-value (7.7e-4) были достаточно большие, были удалены нуклеотиды спереди от мотива и оставлено несколько нуклеотидов позади. В итоге получились хорошие p-value, а конечная e-value стала равна 1.6e-11.

Исходя их полученного LOGO можно предположить, что CS последовательностью является ACTAAA.

Назад
На главную