Сигналы и мотивы - 1


Задание 1

Таблица PWM

Задание 2а

Для исследования был выбран геном вируса средневосточного респераторного синдрома HCoV-EMC/2012. Для полипротеина был взят upstream участок от начала генома, для каждого из девяти поздних генов - участки -100:-1. Файл с последовательностями доступен по ссылке.

Согласно обзору (Paul S Masters, 2006) консенсус TRS для бета-коронавирусов, к которым относится MERS-CoV, представляет собой 5'-AAUCUAAAC-3'.

Поиск последством веб-версии MEME обнаружил схожий мотив TTAACGAAC, находящийся с хорошим p-value (не более 1.15e-04) во всех десяти регионах.

--------------------------------------------------------------------------------
	Motif TTAACGAAC MEME-1 sites sorted by position p-value
--------------------------------------------------------------------------------
Sequence name             Start   P-value              Site
-------------             ----- ---------            ---------
"M"                          83  4.60e-06 acgagtgggt ttaacgaac tccttcata
"orf5"                       91  4.60e-06 atccaggatt ttaacgaac t
"orf4a"                      89  4.60e-06 actcagttaa ttaacgaac tct
"orf3"                       87  4.60e-06 tgttcactaa ttaacgaac tatta
"S"                          47  4.60e-06 gagagtcaaa ttaacgaac tcgtaatatc
"orf1ab"                     60  4.60e-06 aactttgatt ttaacgaac ttaaataaaa
"N"                          77  1.44e-05 ttaattgatt ttaacgaat ctcaatttca
"E"                          91  8.37e-05 ggacatatgg aaaacgaac t
"orf8b"                      44  1.07e-04 tacactgggc ttacccaac acgggaaagt
"orf4b"                      72  1.15e-04 aggacgcagc tcagcgaat cgcttggttg
            

Матрица PWM:

--------------------------------------------------------------------------------
	Motif TTAACGAAC MEME-1 position-specific scoring matrix
--------------------------------------------------------------------------------
log-odds matrix: alength= 4 w= 9 n= 1098 bayes= 7.32617 E= 5.7e-010
  -138   -997   -997    150
  -138   -115   -997    133
   194   -997   -997   -997
   162   -115    -99   -997
  -997    217   -997   -997
  -997   -115    218   -997
   194   -997   -997   -997
   194   -997   -997   -997
  -997    185   -997    -67
            

Послая выдача MEME доступна по ссылке.

При ограничении мотивов длиной ровно шесть (для поиска CS) так же во всех десяти хорошо находится подмотив AACGAA.

--------------------------------------------------------------------------------
	Motif AACGAA MEME-1 sites sorted by position p-value
--------------------------------------------------------------------------------
Sequence name             Start   P-value             Site
-------------             ----- ---------            ------
"N"                          79  2.05e-04 aattgatttt aacgaa tctcaatttc
"M"                          85  2.05e-04 gagtgggttt aacgaa ctccttcata
"E"                          93  2.05e-04 acatatggaa aacgaa ct
"orf5"                       93  2.05e-04 ccaggatttt aacgaa ct
"orf4a"                      91  2.05e-04 tcagttaatt aacgaa ctct
"orf3"                       89  2.05e-04 ttcactaatt aacgaa ctatta
"S"                          49  2.05e-04 gagtcaaatt aacgaa ctcgtaatat
"orf1ab"                     62  2.05e-04 ctttgatttt aacgaa cttaaataaa
"orf4b"                      74  3.61e-04 gacgcagctc agcgaa tcgcttggtt
"orf8b"                      46  1.13e-03 cactgggctt acccaa cacgggaaag
            

Послая выдача MEME доступна по ссылке.

Интересно, что этот участок включает как раз наименее похожую на предполагаемый консенсус позицию с G.

Последние три последовательности похожи в меньшей степени. Возможно, в результате наложенных параметрами ограничений нашёлся неправильный сигнал, а настоящий находится вне отобранных ста нуклеотидов.