Поиск сайта посадки σ-субъединицы РНК-полимеразы
Я выбрал для поиска сайтов посадки σ-субъединицы РНК-полимеразы геном археи Haloferax volcanii, для которой ранее я описывал белок CetZ2.
Последовательность хромосомы и feature table я загрузил из записи в NCBI. Далее я вырезал при помощи скрипта на Python участки с -40 по -1 нуклеотид относительно стартов CDS белков (координаты CDS взяты из feature table); полученные срезы лежат в файле. Выбор координат срезов обоснован тем, что консервативные участки ожидались бы в районе -35 и -10 нуклеотидов у бактерии (однако с археями это может и не сработать).
Для алгоритма MEME я взял первые 30 из полученных промоторов в формате fasta
Выдача МЕМЕ включает два сигнала: TCGCKY (e-value 3,8*10^6, PSSM) и DACRCCCM (e-value 4,5*10^10, PSSM)
Для проверки PSSM через FIMO я сначала загрузил полный набор полученных срезов промоторных областей, а далее - всю хромосому целиком. Порог на P-value 0,01
Поиск по мотиву TCGCKY:
- 984 находки в промоторах, 89846 находок во всей хромосоме
Нормировка на число нуклеотидов: в промоторах 0,0168; во всей хромосоме 0,0315 - явно неудачный пример, в промоторных областях, напротив, оказалось меньше таких последовательностей
Поиск по мотиву DACRCCCM:
- 1386 находок в промоторах, 98927 находок во всей хромосоме
Нормировка на число нуклеотидов: в промоторах 0,0237; во всей хромосоме 0,0347 - опять же, крайне неудачный пример :(
К сожалению, оба паттерна оказались недостоверными, так как вероятность встретить их внутри промоторных областей даже ниже, чем ожидаемая по хромосоме. Такое может произойти по нескольким причинам:
- CDS в NCBI не содержит 5'-UTR, таким образом, начало CDS не совпадает с точкой начала транскрипции; я не нашёл источников достоверных точек начала транскрипции, поэтому использовал начала CDS
- инициация трансляции у архей отличается от таковой у бактерий, то есть -35 и -10 сигналы могут быть неактуальны в данном случае; возможно, стоило поискать сигналы дальше от точки начала транскрипции, или внутри гена