У бактерий терминация транскрибции может идти двумя вариантами:Rho-независимо и Rho-зависимо. При Rho-независимой терминации образуется GC-богатая шпилька, за которой следует U-богатый участок. Такие терминирующие шпильки ищет сервис Arnold Terminator. При Rho-зависимой терминации Rho-белок узнает rut-сайт - участок РНК в 80-90 нуклеотидов, не содержащий вторичных структур - он обогоащен цитозином и обеднен гуанином(гуанин способствует образованию вторичных структур). Rho-белок может садится на очень разные последовательности - консенсунсного rut-сайта не существует. После посадки на РНК Rho-белок АТФ-зависимо движется по РНК и, обычно на U-богатом сайте, сбивает РНК-полимеразу с ДНК-РНК дуплекса.
Скорей всего, сигнал rut не очень сильный - он может иметь большую длину, чем необходимо для связывания Rho-белка - возможно, его место посадки может варьироваться. Последовательность самого сайта не постоянна.
Программа RhoTermPredict ищет rut-сайты в последовательностях. Для этого она проходит окном в 78н по последовательности. Когда соотношение С/G в окне достигнет 1, и в окне будут регулярные островки с цитозином(каждые 11-13 н) длина окна меняется на 128 - далее с этой позиции ищется участок с максимальным С/G составом и регулярными цитозинами. Таким образом, RhoTermPredict ищет rut-сайт длиной 78н в области в 128н (дополнительные 50н - возможное расширение сайта).
Далее ищутся сайты, на которых возможно торможение РНК-полимеразы - консенсная последовательность G[−11]G[−10](C/T)[−1]G[+1] и шпилечные структуры.
Я применила RhoTermPredict для поиска rut-сайта в последоветельности гена atpA бактерии Shigella flexeneri. Программа ищет rut-сайты для обеих цепей. Поскольку для гена была скачана смысловая цепь ДНК, в выдаче программмы нужно смотреть на прямую цепь. Самое большое C/G соотношение и число шпилечных структур у региона 814-892. Также для контроля я использовала сервис Arnold Terminator - он не нашел сайтов Rho-независимой терминации(это говорит о том, что, скорей всего, терминация в этом гене и правда Rho-зависимая).
Набор тестовой выборки и отрицательного контроля:
wget 'https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/006/925/GCF_000006925.2_ASM692v2/ GCF_000006925.2_ASM692v2_cds_from_genomic.fna.gz'
gunzip -d GCF_000006925.2_ASM692v2_cds_from_genomic.fna.gz
mkdir positive
seqretsplit -sequence GCF_000006925.2_ASM692v2_cds_from_genomic.fna -osdirectory positive/ -send 7 -outseq qwerty
grep '>' -hv positive/* > genes_starts.txt
mkdir negative
seqretsplit -sequence GCF_000006925.2_ASM692v2_cds_from_genomic.fna -osdirectory negative/ -sbegin 7 -send 13 -outseq qwerty
grep '>' -hv negative/* > genes_midles.txt
Выборка genes_starts.txt была очищена от последовательностей, начинающихся не с 'ATG' - положительный контроль.
grep ^'ATG' genes_starts.txt > positive_control.txt
По последовательностям обучающей выборки(genes_starts.txt) была построена матрица PWM.
Скрипт с построением матрицы и гистограмм
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
A | 0.91 | -9.52 | -9.52 | 0.35 | -0.01 | -0.10 | 0.18 |
T | -1.96 | 1.29 | -6.99 | -0.56 | -0.18 | 0.20 | -0.50 |
G | -0.50 | -7.02 | 1.26 | -0.23 | -0.52 | -0.44 | -0.16 |
C | -6.18 | -8.58 | -8.58 | 0.31 | 0.85 | 0.46 | 0.53 |
В качестве порога был взят вес 2.
Сигнал | Обучающая выборка | положительный контроль | Отрицательный контроль |
+ | 3917 | 3380 | 94 |
- | 396 | 21 | 4291 |
Информационное содержание IC выравнивания составило 9,23. Скрипт для подсчета IC.
Видно, что первая буква кодона не очень консервативна, тогда как вторые две постоянны.