Для исследования был выбран геном вируса средневосточного респераторного синдрома HCoV-EMC/2012. Для полипротеина был взят upstream участок от начала генома, для каждого из девяти поздних генов - участки -100:-1. Файл с последовательностями доступен по ссылке.
Согласно обзору (Paul S Masters, 2006) консенсус TRS для бета-коронавирусов, к которым относится MERS-CoV, представляет собой 5'-AAUCUAAAC-3'.
Поиск последством веб-версии MEME обнаружил схожий мотив TTAACGAAC, находящийся с хорошим p-value (не более 1.15e-04) во всех десяти регионах.
--------------------------------------------------------------------------------
Motif TTAACGAAC MEME-1 sites sorted by position p-value
--------------------------------------------------------------------------------
Sequence name Start P-value Site
------------- ----- --------- ---------
"M" 83 4.60e-06 acgagtgggt ttaacgaac tccttcata
"orf5" 91 4.60e-06 atccaggatt ttaacgaac t
"orf4a" 89 4.60e-06 actcagttaa ttaacgaac tct
"orf3" 87 4.60e-06 tgttcactaa ttaacgaac tatta
"S" 47 4.60e-06 gagagtcaaa ttaacgaac tcgtaatatc
"orf1ab" 60 4.60e-06 aactttgatt ttaacgaac ttaaataaaa
"N" 77 1.44e-05 ttaattgatt ttaacgaat ctcaatttca
"E" 91 8.37e-05 ggacatatgg aaaacgaac t
"orf8b" 44 1.07e-04 tacactgggc ttacccaac acgggaaagt
"orf4b" 72 1.15e-04 aggacgcagc tcagcgaat cgcttggttg
Матрица PWM:
--------------------------------------------------------------------------------
Motif TTAACGAAC MEME-1 position-specific scoring matrix
--------------------------------------------------------------------------------
log-odds matrix: alength= 4 w= 9 n= 1098 bayes= 7.32617 E= 5.7e-010
-138 -997 -997 150
-138 -115 -997 133
194 -997 -997 -997
162 -115 -99 -997
-997 217 -997 -997
-997 -115 218 -997
194 -997 -997 -997
194 -997 -997 -997
-997 185 -997 -67
Послая выдача MEME доступна по ссылке.
При ограничении мотивов длиной ровно шесть (для поиска CS) так же во всех десяти хорошо находится подмотив AACGAA.
--------------------------------------------------------------------------------
Motif AACGAA MEME-1 sites sorted by position p-value
--------------------------------------------------------------------------------
Sequence name Start P-value Site
------------- ----- --------- ------
"N" 79 2.05e-04 aattgatttt aacgaa tctcaatttc
"M" 85 2.05e-04 gagtgggttt aacgaa ctccttcata
"E" 93 2.05e-04 acatatggaa aacgaa ct
"orf5" 93 2.05e-04 ccaggatttt aacgaa ct
"orf4a" 91 2.05e-04 tcagttaatt aacgaa ctct
"orf3" 89 2.05e-04 ttcactaatt aacgaa ctatta
"S" 49 2.05e-04 gagtcaaatt aacgaa ctcgtaatat
"orf1ab" 62 2.05e-04 ctttgatttt aacgaa cttaaataaa
"orf4b" 74 3.61e-04 gacgcagctc agcgaa tcgcttggtt
"orf8b" 46 1.13e-03 cactgggctt acccaa cacgggaaag
Послая выдача MEME доступна по ссылке.
Интересно, что этот участок включает как раз наименее похожую на предполагаемый консенсус позицию с G.
Последние три последовательности похожи в меньшей степени. Возможно, в результате наложенных параметрами ограничений нашёлся неправильный сигнал, а настоящий находится вне отобранных ста нуклеотидов.