Для исследования был выбран геном вируса средневосточного респераторного синдрома HCoV-EMC/2012. Для полипротеина был взят upstream участок от начала генома, для каждого из девяти поздних генов - участки -100:-1. Файл с последовательностями доступен по ссылке.
Согласно обзору (Paul S Masters, 2006) консенсус TRS для бета-коронавирусов, к которым относится MERS-CoV, представляет собой 5'-AAUCUAAAC-3'.
Поиск последством веб-версии MEME обнаружил схожий мотив TTAACGAAC, находящийся с хорошим p-value (не более 1.15e-04) во всех десяти регионах.
-------------------------------------------------------------------------------- Motif TTAACGAAC MEME-1 sites sorted by position p-value -------------------------------------------------------------------------------- Sequence name Start P-value Site ------------- ----- --------- --------- "M" 83 4.60e-06 acgagtgggt ttaacgaac tccttcata "orf5" 91 4.60e-06 atccaggatt ttaacgaac t "orf4a" 89 4.60e-06 actcagttaa ttaacgaac tct "orf3" 87 4.60e-06 tgttcactaa ttaacgaac tatta "S" 47 4.60e-06 gagagtcaaa ttaacgaac tcgtaatatc "orf1ab" 60 4.60e-06 aactttgatt ttaacgaac ttaaataaaa "N" 77 1.44e-05 ttaattgatt ttaacgaat ctcaatttca "E" 91 8.37e-05 ggacatatgg aaaacgaac t "orf8b" 44 1.07e-04 tacactgggc ttacccaac acgggaaagt "orf4b" 72 1.15e-04 aggacgcagc tcagcgaat cgcttggttg
Матрица PWM:
-------------------------------------------------------------------------------- Motif TTAACGAAC MEME-1 position-specific scoring matrix -------------------------------------------------------------------------------- log-odds matrix: alength= 4 w= 9 n= 1098 bayes= 7.32617 E= 5.7e-010 -138 -997 -997 150 -138 -115 -997 133 194 -997 -997 -997 162 -115 -99 -997 -997 217 -997 -997 -997 -115 218 -997 194 -997 -997 -997 194 -997 -997 -997 -997 185 -997 -67
Послая выдача MEME доступна по ссылке.
При ограничении мотивов длиной ровно шесть (для поиска CS) так же во всех десяти хорошо находится подмотив AACGAA.
-------------------------------------------------------------------------------- Motif AACGAA MEME-1 sites sorted by position p-value -------------------------------------------------------------------------------- Sequence name Start P-value Site ------------- ----- --------- ------ "N" 79 2.05e-04 aattgatttt aacgaa tctcaatttc "M" 85 2.05e-04 gagtgggttt aacgaa ctccttcata "E" 93 2.05e-04 acatatggaa aacgaa ct "orf5" 93 2.05e-04 ccaggatttt aacgaa ct "orf4a" 91 2.05e-04 tcagttaatt aacgaa ctct "orf3" 89 2.05e-04 ttcactaatt aacgaa ctatta "S" 49 2.05e-04 gagtcaaatt aacgaa ctcgtaatat "orf1ab" 62 2.05e-04 ctttgatttt aacgaa cttaaataaa "orf4b" 74 3.61e-04 gacgcagctc agcgaa tcgcttggtt "orf8b" 46 1.13e-03 cactgggctt acccaa cacgggaaag
Послая выдача MEME доступна по ссылке.
Интересно, что этот участок включает как раз наименее похожую на предполагаемый консенсус позицию с G.
Последние три последовательности похожи в меньшей степени. Возможно, в результате наложенных параметрами ограничений нашёлся неправильный сигнал, а настоящий находится вне отобранных ста нуклеотидов.