Сигналы и мотивы

Поиск мотива сайта разрывной транскриации sgRNA

Использованый геном принадлежит коронавирусу HKU16. Из файла с gene features были получены координаты orf1ab и поздних генов (-100 нуклеотидов с начала гена), в итоге были образованы файл с координатами и файл с последовательностями (заключительные, поэтому являются частями первоначальных).

Данные последовательности были обработаны с помощью сервиса MEME. Среди параметров была изменена длина мотива с 3 до 7 нуклеотидов, так как по данным статьи известно, что мотив консервативен и представляет собой последовательность 5′-ACACCA-3′. В итоге был найден соответствующий мотив, лого которого представлено на рисунке 1. Но его e-value больше единицы, поэтому входные последовательности были несколько изменены.

Далее на выход принимался только мотив с лучшим e-value, а входные последовательности были укорочены таким образом, чтобы преимущественно содержать мотив. Такой метод в итоге позволил уменьшить значение e-value до 0.0019 текстовая выдача MEME и графическое представление MEME).

Позиционная весовая матрица (PWM) для мотива находится по ссылке.

Лого мотива TRS
Рисунок 1. Лого мотива TRS

Данный мотив встретился в 7 из 8 возможных генов перед белками. Но похоже что, в гене NS6, единственном без мотива, данный мотив просто был вырезан при укорачивании, так как изначально он присутствовал во всех генах. Так, процент генов белков с мотивом составляет 87.5, но мог быть и 100. Данные литературы утверждают, что найденный мотив является регуляторной последовательностью для транскриции (TRS), что и требовалось найти.