Сигналы и мотивы

PWM матрица

Подготовка upstream последовательностей

Для работы был выбран вирус Rhinolophus bat coronavirus HKU2. При помощи команды EMBOSS extractseq sequence.fasta -regions '1-298 20376-20477 23762-23863 24432-24533 24668-24769 25369-25470 26508-26609' -separate, были получены upstream последовательности, которые являются 100 нуклеотидами до кодирующией части и 1 нуклеотидом начала кодирующей(кроме гена полипротеина, начало с первого нуклеотида).

Поиск мотивов

Для поиска мотивов была использована программа MEME.
Файл с последовательностями, который давался на вход программе.
Выдачи MEME:
1.MEME с параметрами по умолчанию
2.MEME с одним мотивом
3.MEME с укороченными последовательностями


Рисунок 1. Первый запуск MEME по умолчанию.


Рисунок 2. MEME с поиском одного мотива.


Рисунок 3. MEME с короткими последовательностями.


Рисунок 4. LOGO

Первая выдача показала наличие общего мотива средних размеров у всех генов MAACTAAAC. После чего был выполнен поиск по одному мотиву, который дал высокие E-value в Logo порядка e-001 и p-value порядка e-3. Чтобы это исправить последовательности были укорочены и MEME был зааущен в 3ий раз. В итоге эти значения уменьшились до более менее приемлемых. На основе LOGO можно предаоложить, что CV последовательность AACTAAA.