Сигналы и мотивы

Создание позиционной весовой матрицы для последовательности Козак X.laevis

Позиционная весовая матрица доступна по этой ссылке.

Поиск сайтов регуляции разрывной транскрипции sgmRNA коронавируса летучих мышей HKU10

Для анализа был выбран коронавирус летучих мышей HKU10(ссылка на запись в NCBI). В нём присутствует ген полипротеина и ещё 8 поздних генов, которые зачастую перекрываются.
Для анализа были выбраны upstream-регионы для каждого гена, в качестве upstream-регионов брались нуклеотидные последовательности от ближайшего к началу гена старт-кодона ATG до начала гена. Была составлена таблица координат upstream-регионов (её можно посмотреть здесь), после этого с помощью команд seqret и cat выбранные регионы были скопированы в общий файл upstream.fasta.
Далее полученный файл с 9 upstream-регионами был проанализирован с помощью MEME. Программа нашла 3 предполагаемых мотива, у одного из которого E-value достаточно мал (1.1е-004), чтобы считать, что это может быть нужный нам мотив. Описание этого мотива представлено на Рисунке 1.

Рис.1 Нуклеотидный состав найденного мотива.

Данный мотив встречается во 8 из 9 апстримных нуклеотидных последовательностей - однако, я считаю, если увеличить апстримную последовательность последнего позднего гена NS7c, там также можно будет найти нечто похожее. Стоит отметить, что найденный мотив отличается по своему составу от описанного в статье Zun˜iga et al., это может быть обусловлено разными объектами исследования. Данный мотив, как я думаю, является мотивом TRS-B (так как встречается в поздних генах).
Во всех последовательностях встречается очень похожий участок (5'-CTAAAC-3'), который, наиболее вероятно, представляет собой core sequence (CS). На Рисунке 2 приведено расположение найденных мотивов в нуклеотидных последовательностях апстримных участков.

Рис.2 Расположение найденных мотивов.