Мотив сайта разрывной транскрипции sgRNA в геноме одного из коронавирусов (Coronaviridae)

В данном задании был выбран Night heron coronavirus HKU19. Далее скачали его геном и составили координаты полипротеина и каждого позднего гена. С помощью python вырезали из генома интересующие нас upstream-области перед каждым геном белка и записали последовательности в файл.

Дальше находим мотив сайта CS с помощью MEME, параметры выставлены так, как написано в самом практикуме.

В итоге, нашлось три мотива (выдача, см. рис.1). Также видим из рис.3, что первый мотив нашёлся во всех последовательностях, за исклюением третьей; второй - во всех, а третий - в первой, второй и шестой.
E-value: у первого мотива - 5.0e-003, у второго - 8.7e+000, у третьего - 4.1e+002. У второго и третьего мотива довольно большие E-value, поэтому попробовали изменить длину последовательностей (выдача); E-value снизился у первых двух мотивов, а у третьего даже увеличился. Дальнейшие попытки изменения входных параметров (в конце концов, минимум длины поставили на 3, максимум - на 10) и изменения длины последовательностей (fasta-файл с редактурой) привели к увеличению E-value у третьего мотива (4.9e+002), но у второго хотя бы до 2.3e+002 снизился (рис.2)... Локализация мотивов у N56 после редактуры поменялись местами, особо значительных перемен в локализации более не произошло.
Мотивы представлены на рис.4-6. MEME также выдаёт в качестве выходного файла PWM-матрицу каждого мотива (ссылка).

meme
Рис.1. Выдача в формате HTML
meme1
Рис.2. Выдача в формате HTML (после изменений)
motif
Рис.3. Локализация мотивов.
motif
Рис.4. Мотив 1: TGCAGWGKG.
motif
Рис.5. Мотив 2: ACACC.
motif
Рис.6. Мотив 3: TGCTTG.

Затем воспользуемся программой FIMO для поиска сигналов в последовательности по PWM этого сигнала прямо на сайте, где работали с MEME. Задаём в качестве базы геном выбранного коронавируса (AC: NC_016994.1), а в качестве мотива - самый первый мотив (т.к. часто встречается и имеет низкое E-value). Указали в параметрах, что ищем только в одной цепи. Результат работы - tsv-таблица, которая представлена и в таблице 1 (первые четыре колонки из изначальной выдачи удалены, чтобы не перегружать эту табличку количеством не совсем нужной информации и не дублировать одно и то же по 8 раз). Совпадения нашлись на прямой цепи.
Нужный нам мотив нашёлся на 8 сайтах, что совпадает с результатом выдачи MEME, p-value у находок низкий, следовательно, сигнал достоверный.

Таблица 1. Результат работы FIMO.
Start End p-value q-value Matched Sequence
19269 19277 9.05e-06 0.0815 TGCAGAGGG
23321 23329 1.25e-05 0.0815 TGCAGAGTG
23911 23919 1.25e-05 0.0815 TGCAGAGTG
24184 24192 1.25e-05 0.0815 TGCAGAGTG
25230 25238 1.58e-05 0.0823 TTCAGTGGG
25507 25515 4.81e-05 0.209 AGCAGTGTG
237 245 7.96e-05 0.27 CTCAGTGGG
5023 5031 8.28e-05 0.27 CTCAGTGTG