Позиционная весовая матрица доступна по этой ссылке.
Для анализа был выбран коронавирус летучих мышей HKU10(ссылка на запись в NCBI). В нём присутствует ген полипротеина и ещё
8 поздних генов, которые зачастую перекрываются.
Для анализа были выбраны upstream-регионы для каждого гена, в качестве upstream-регионов брались нуклеотидные последовательности
от ближайшего к началу гена старт-кодона ATG до начала гена. Была составлена таблица координат upstream-регионов (её можно посмотреть здесь),
после этого с помощью команд seqret и cat выбранные регионы были скопированы в общий файл
upstream.fasta.
Далее полученный файл с 9 upstream-регионами был проанализирован с помощью MEME. Программа нашла 3 предполагаемых мотива, у одного из которого E-value достаточно мал (1.1е-004), чтобы считать,
что это может быть нужный нам мотив. Описание этого мотива представлено на Рисунке 1.
Данный мотив встречается во 8 из 9 апстримных нуклеотидных последовательностей - однако, я считаю, если увеличить апстримную последовательность последнего позднего гена NS7c, там также
можно будет найти нечто похожее. Стоит отметить, что найденный мотив отличается по своему составу от описанного в статье Zun˜iga et al., это может быть обусловлено разными объектами
исследования.
Данный мотив, как я думаю, является мотивом TRS-B (так как встречается в поздних генах).
Во всех последовательностях встречается очень похожий участок (5'-CTAAAC-3'), который, наиболее вероятно, представляет собой core
sequence (CS).
На Рисунке 2 приведено расположение найденных мотивов в нуклеотидных последовательностях апстримных участков.