6.2 Вычисление матрицы PWM

Ссылка на таблицу Excel с позиционной весовой матрицей (PWM) для последовательностей Козак M. musculus

6.4 Поиск сайтов регуляции разрывной транскрипции sgmRNA

Выбранный вирус - Bat coronavirus CDPHE15/USA/2006. В одном из обзоров по молекулярной биологии короновирусов все рассматриваемые вирусы разбиты на 3 группы и со ссылкой на статьи 2003 и 1995 годов для них указываются консенснусные последовательности сигналов TRS: 5′‐AACUAAAC‐3' для группы 1; 5′‐AAUCUAAAC‐3′ для группы 2; and 5′‐CUUAACAA‐3′ для группы 3. Геном выбранного мною короновируса был секвенирован позднее написания статей, но наличие в группе 1 других альфакороновирусов позволяет предположить, что искомая последовательность будет напоминать AACUAAAC.
В геноме нашлось 7 генов, первый - ген полипротеина PP1ab, трансляционная область которого включает в себя трансляционную область предположительно другой версии белка PP1ab - PP1a, поэтому upstream областей вышло только 6. За начальные условия были взяты: upstream область в 100 нк (кроме PP1ab, у которого трансляционная область начинается с 80-й позиции) с минимальной шириной в 6 нк для мотива и тремя лучшими мотивами в выдаче. Команда поиска:
meme -dna -mod zoops -nmotifs 3 -minw 6 -o meme_out NC_022103.1_US100.fasta
Такой поиск выдал мотив с нужной подпоследовательностью, но она не была найдена в одной из upstream областей, да и e-value вышел 1.2e+001. Возможно, в ней мотив располагался дальше от трасляционной области, поэтому она была увеличена до 150 нк. Области других генов были урезаны по максимуму для достижения хорошего E-Value. Действовать приходилось методом "проб и ошибок", потому что иногда при вырезании области, в которой не было мотива, e-value почему-то увеличивалось. Также количество минимального количества сайтов для мотива было увеличено до 5. Команда поиска:
meme -dna -mod zoops -minsites 5 -nmotifs 3 -minw 6 -o meme_out2 new.fasta
Таким образом был получен вариант мотива с e-value 2.3e-002, содержащегося во всех 6 областях, причем в один вариант полностью совпадает с "образцом". Интересно, что с 3' конца мотив оказался длиннее, чем в обзоре, но короче в начале, хотя это начало просматривается в некоторых последовательностях. Наблюдается консервативная позиция в +2 от мотива для A, на +1 пополам встречается G и A, в +3 преобладает A. Можно даже сказать, что "хвост" более консервативен, чем середина. Ещё можно заметить, что почти все мотивы расположены недалеко от старт-кодонов. Результаты можно скачать , они же представлены на рис.1. На рис.3 - его LOGO. На рис.2 для сравнения представлен первоначальный вариант из вебсервиса meme. Лист с координатами вырезанных областей.

Something went wrong :(
Рис.1 Выдача meme мотива с e-value 2.3e-002 
Something went wrong :(
Рис.2 Выдача meme с дефолтными условиями 
Something went wrong :(
Рис.3 LOGO результирующего мотива