СИГНАЛЫ И МОТИВЫ II
Проверка мотива для сайтов регуляции разрывной транскрипции sgmRNA
Результаты для Bat coronavirus BM48-31/BGR/2008 далеки от идеала :(
Настройки сначала были по умолчанию.
Да, в 5 сигналах из 6 содержатся 5 из 6 нуклеотидов CS, эти же сигналы находятся почти вплотную к своим генам (кроме одного), но среди этих генов нет гена полипротеина. Итого, сигналы подтвердились для 5 из 8 поздних генов. Если поставить p-value 0,001, находок становится сильно больше, среди них появляется и сигнал перед ORF1ab.
Motif ID | Ближайший ген | Sequence Name | Strand | Start | End | p-value | q-value | Matched Sequence |
---|---|---|---|---|---|---|---|---|
1 | S | NC_014470.1 | + | 21382 | 21390 | 5.36e-06 | 0.0314 | TAAACGAAC |
1 | ORF3 | NC_014470.1 | + | 25168 | 25176 | 5.36e-06 | 0.0314 | TAAACGAAC |
1 | M | NC_014470.1 | + | 26246 | 26254 | 5.36e-06 | 0.0314 | TAAACGAAC |
1 | ORF7a | NC_014470.1 | + | 27179 | 27187 | 5.36e-06 | 0.0314 | TAAACGAAC |
1 | N | NC_014470.1 | + | 27650 | 27658 | 5.36e-06 | 0.0314 | TAAACGAAC |
1 | внутри ORF1ab | NC_014470.1 | + | 331 | 339 | 9.16e-05 | 0.447 | TGAAGGAAC |
Козак вируса не похожа на человеческую. Есть несколько позиций, в которых хотя бы встречаются одинаковые варианты букв - например, 8 и 9.
Мой вирус оказался из Unclassified, поэтому взяла просто ещё один бета-, и один альфа-: Human coronavirus HKU1 и Bat coronavirus CDPHE15/USA/2006.
Здесь всё логично: для бета- сигналы больше похожи на сигнал моего, для альфа- - меньше и встречаются перед меньшим количеством генов.
Motif ID | Ближайший ген | Sequence Name | Strand | Start | End | p-value | q-value | Matched Sequence |
---|---|---|---|---|---|---|---|---|
1 | ORF1ab | NC_006577.2 | + | 60 | 71 | 1.26e-07 | 0.000609 | TTAAATCTAAAC |
1 | HE | NC_006577.2 | + | 21760 | 21771 | 1.26e-07 | 0.000609 | TTAAATCTAAAC |
1 | S | NC_006577.2 | + | 22930 | 22941 | 1.26e-07 | 0.000609 | TTAAATCTAAAC |
1 | ORF4 | NC_006577.2 | + | 27032 | 27043 | 1.26e-07 | 0.000609 | TTAAATCTAAAC |
1 | N | NC_006577.2 | + | 28301 | 28312 | 1.26e-07 | 0.000609 | TTAAATCTAAAC |
1 | M | NC_006577.2 | + | 27618 | 27629 | 2.31e-07 | 0.000929 | CTAAATCTAAAC |
1 | внутри ORF1ab | NC_006577.2 | + | 15947 | 15958 | 3.1e-06 | 0.0107 | CTGAATCTAAAT |
1 | - | NC_006577.2 | + | 22515 | 22526 | 3.76e-06 | 0.0114 | ATAAATCTAAAC |
1 | внутри ORF1ab | NC_006577.2 | + | 17528 | 17539 | 6.95e-06 | 0.0175 | TTAAAGCTAAAC |
1 | внутри ORF1ab | NC_006577.2 | + | 4455 | 4466 | 7.24e-06 | 0.0175 | TTAAATCTAAAG |
Motif ID | Ближайший ген | Sequence Name | Strand | Start | End | p-value | q-value | Matched Sequence |
---|---|---|---|---|---|---|---|---|
1 | E | NC_022103.1 | + | 25290 | 25300 | 6.18e-07 | 0.0173 | AACTCGACGAA |
1 | N | NC_022103.1 | + | 26219 | 26229 | 3.53e-06 | 0.0494 | AACTAAACAAA |
1 | NS3 | NC_022103.1 | + | 24610 | 24620 | 1.42e-05 | 0.133 | AACCATACGAA |
1 | M | NC_022103.1 | + | 25527 | 25537 | 9.86e-05 | 0.691 | GTCTAAACGAA |