СИГНАЛЫ И МОТИВЫ II

Проверка мотива для сайтов регуляции разрывной транскрипции sgmRNA

Результаты для Bat coronavirus BM48-31/BGR/2008 далеки от идеала :(
Настройки сначала были по умолчанию.
Да, в 5 сигналах из 6 содержатся 5 из 6 нуклеотидов CS, эти же сигналы находятся почти вплотную к своим генам (кроме одного), но среди этих генов нет гена полипротеина. Итого, сигналы подтвердились для 5 из 8 поздних генов. Если поставить p-value 0,001, находок становится сильно больше, среди них появляется и сигнал перед ORF1ab.

Табл. 1. Выдача FIMO по коронавирусу из пр.6.
Motif ID Ближайший ген Sequence Name Strand Start End p-value q-value Matched Sequence
1 S NC_014470.1 + 21382 21390 5.36e-06 0.0314 TAAACGAAC
1 ORF3 NC_014470.1 + 25168 25176 5.36e-06 0.0314 TAAACGAAC
1 M NC_014470.1 + 26246 26254 5.36e-06 0.0314 TAAACGAAC
1 ORF7a NC_014470.1 + 27179 27187 5.36e-06 0.0314 TAAACGAAC
1 N NC_014470.1 + 27650 27658 5.36e-06 0.0314 TAAACGAAC
1 внутри ORF1ab NC_014470.1 + 331 339 9.16e-05 0.447 TGAAGGAAC
Logo
Рис. 1. Kozak вируса.
Logo
Рис. 2. Человеческий Kozak.

Козак вируса не похожа на человеческую. Есть несколько позиций, в которых хотя бы встречаются одинаковые варианты букв - например, 8 и 9.

Мой вирус оказался из Unclassified, поэтому взяла просто ещё один бета-, и один альфа-: Human coronavirus HKU1 и Bat coronavirus CDPHE15/USA/2006.
Здесь всё логично: для бета- сигналы больше похожи на сигнал моего, для альфа- - меньше и встречаются перед меньшим количеством генов.

Табл. 2. Выдача FIMO по Human coronavirus HKU1.
Motif ID Ближайший ген Sequence Name Strand Start End p-value q-value Matched Sequence
1 ORF1ab NC_006577.2 + 60 71 1.26e-07 0.000609 TTAAATCTAAAC
1 HE NC_006577.2 + 21760 21771 1.26e-07 0.000609 TTAAATCTAAAC
1 S NC_006577.2 + 22930 22941 1.26e-07 0.000609 TTAAATCTAAAC
1 ORF4 NC_006577.2 + 27032 27043 1.26e-07 0.000609 TTAAATCTAAAC
1 N NC_006577.2 + 28301 28312 1.26e-07 0.000609 TTAAATCTAAAC
1 M NC_006577.2 + 27618 27629 2.31e-07 0.000929 CTAAATCTAAAC
1 внутри ORF1ab NC_006577.2 + 15947 15958 3.1e-06 0.0107 CTGAATCTAAAT
1 - NC_006577.2 + 22515 22526 3.76e-06 0.0114 ATAAATCTAAAC
1 внутри ORF1ab NC_006577.2 + 17528 17539 6.95e-06 0.0175 TTAAAGCTAAAC
1 внутри ORF1ab NC_006577.2 + 4455 4466 7.24e-06 0.0175 TTAAATCTAAAG

Табл. 3. Выдача FIMO по Bat coronavirus CDPHE15/USA/2006.
Motif ID Ближайший ген Sequence Name Strand Start End p-value q-value Matched Sequence
1 E NC_022103.1 + 25290 25300 6.18e-07 0.0173 AACTCGACGAA
1 N NC_022103.1 + 26219 26229 3.53e-06 0.0494 AACTAAACAAA
1 NS3 NC_022103.1 + 24610 24620 1.42e-05 0.133 AACCATACGAA
1 M NC_022103.1 + 25527 25537 9.86e-05 0.691 GTCTAAACGAA