В данном задании был выбран сигнал, находящийся в лактозном опероне бактерий (рис.1). Белок CAP, или CRP (белок-активатор катаболизма сахаров), узнаёт этот сигнал и, связваясь с cAMP (цАМФ), активирует катаболизм лактозы, если отсутствует глюкоза в клетках, необходимая для нормального существования организмов, или её очень мало.
Мотив сигнала[1]: 5`-TAATGTGAGTTAGCTCACTCAT-3`
Эту последовательность узнаёт CAP-белок, связанный с цАМФ, который сигнализирует о голоде и что необходимо расщепить лактозу для получения глюкозы, чтобы восстановить нормальное функционирование клеток (для этого необходимо протранскрибировать гены лактозного оперона). Сигнал необходим для активации транскрипции лактозного оперона. Таким образом, адресатом является сам белок, который реагирует именно в случае низкого содержания или полного отсутствия глюкозы и связывается с сайтом. По сравнению со слабым сигналом промотора оперона, этот сигнал эффективнее.
Интересно заметить, что паттерн в CBS (CAP-binding site) лактозного оперона отличается на семь букв от других сайтов, с которым связывается белок: 5′-AATGTGATCTAGATCACATTT-3′.
Структура CAP-белка показана на рис.2[2].
Из отфильтрованной таблицы с генами человека в практикуме 6 были выбраны 32 гена, из которых вырезали 13 нуклеотидов: ATG + 3 нуклеотида до него + 7 нуклеотидов после. Затем разделили на две части: в первой 13 генов (40%), а во второй - 19 (60%). Составили выравнивание без гэпов.
PMW-матрица: ссылка (листы "human_genes", "human_PMW_40%", "human_PMW_60%"). Светло-голубые столбцы - ATG-кодон.
Далее проделываем то же самое, но для коронавируса SARS-CoV-2. Из gb-файла вытаскиваем координаты полипротеина (266-21555) и поздних генов (см.таблицу, лист "virus_PMV_positive", "virus_PMV_negative"; с учётом того, что необходимы фрагменты по 13 нуклеотидов, пересчитывали начало и конец отдельно). С помощью пакета EntrezDirect скачиваем последовательности с координататми:
efetch -db "nuccore" -id "NC_045512.2" -format "fasta" -seq_start {start} -seq_stop {stop} >> virus.fasta efetch -db "nuccore" -id "NC_045512.2" -format "fasta" -seq_start {start} -seq_stop {stop} >> virus_atg.fasta
Видим из матрицы, что распределения весов для положительного и отрицательного контроля отличаются: вес у отрицательного контроля ниже, чем у положительного (как и ожидалось, т.к. в отрицательном контроле присутствуют ATG-кодоны, которые находятся не перед стартом транскрипции, а просто разбросаны по геному).
Выражаю большую благодарность Екатерине Кузнеченковой за написанный ею понятный скрипт для вычисления PWM для тестовой выборки (19 генов человека), взятой в качестве положительного контроля, и отрицательного контроля (сайты ATG, не являющиеся началом транскрипции в геноме SARS-CoV-2). Результаты представлены в той же google-таблице (лист "PMW_test_correct"). Видно, что веса у положительного контроля больше, чем у отрицательного контроля. Следовательно, последовательность, находящаяся до ATG-кодона, довольна специфична.
Для вычисления информационного содержания необходимо:
Расчёты также представлены в таблице (лист "human_IC").
С помощью сервиса WebLOGO3 был получен LOGO для последовательности Козак человека (рис.3).