Сигналы в геноме

Rho-зависимая терминация у бактерий

У бактерий терминация транскрибции может идти двумя вариантами:Rho-независимо и Rho-зависимо. При Rho-независимой терминации образуется GC-богатая шпилька, за которой следует U-богатый участок. Такие терминирующие шпильки ищет сервис Arnold Terminator. При Rho-зависимой терминации Rho-белок узнает rut-сайт - участок РНК в 80-90 нуклеотидов, не содержащий вторичных структур - он обогоащен цитозином и обеднен гуанином(гуанин способствует образованию вторичных структур). Rho-белок может садится на очень разные последовательности - консенсунсного rut-сайта не существует. После посадки на РНК Rho-белок АТФ-зависимо движется по РНК и, обычно на U-богатом сайте, сбивает РНК-полимеразу с ДНК-РНК дуплекса.

Скорей всего, сигнал rut не очень сильный - он может иметь большую длину, чем необходимо для связывания Rho-белка - возможно, его место посадки может варьироваться. Последовательность самого сайта не постоянна.

Rho-зависимая терминация

Программа RhoTermPredict ищет rut-сайты в последовательностях. Для этого она проходит окном в 78н по последовательности. Когда соотношение С/G в окне достигнет 1, и в окне будут регулярные островки с цитозином(каждые 11-13 н) длина окна меняется на 128 - далее с этой позиции ищется участок с максимальным С/G составом и регулярными цитозинами. Таким образом, RhoTermPredict ищет rut-сайт длиной 78н в области в 128н (дополнительные 50н - возможное расширение сайта).

Далее ищутся сайты, на которых возможно торможение РНК-полимеразы - консенсная последовательность G[−11]G[−10](C/T)[−1]G[+1] и шпилечные структуры.

Я применила RhoTermPredict для поиска rut-сайта в последоветельности гена atpA бактерии Shigella flexeneri. Программа ищет rut-сайты для обеих цепей. Поскольку для гена была скачана смысловая цепь ДНК, в выдаче программмы нужно смотреть на прямую цепь. Самое большое C/G соотношение и число шпилечных структур у региона 814-892. Также для контроля я использовала сервис Arnold Terminator - он не нашел сайтов Rho-независимой терминации(это говорит о том, что, скорей всего, терминация в этом гене и правда Rho-зависимая).

Файл с выдачей RhoTermPredict

Источники

Построение PWM для окрестности ATG котода Shigella flexeneri

Набор тестовой выборки и отрицательного контроля:

wget 'https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/006/925/GCF_000006925.2_ASM692v2/ GCF_000006925.2_ASM692v2_cds_from_genomic.fna.gz'

gunzip -d GCF_000006925.2_ASM692v2_cds_from_genomic.fna.gz

mkdir positive

seqretsplit -sequence GCF_000006925.2_ASM692v2_cds_from_genomic.fna -osdirectory positive/ -send 7 -outseq qwerty

grep '>' -hv positive/* > genes_starts.txt

mkdir negative

seqretsplit -sequence GCF_000006925.2_ASM692v2_cds_from_genomic.fna -osdirectory negative/ -sbegin 7 -send 13 -outseq qwerty

grep '>' -hv negative/* > genes_midles.txt

Выборка genes_starts.txt была очищена от последовательностей, начинающихся не с 'ATG' - положительный контроль.

grep ^'ATG' genes_starts.txt > positive_control.txt

По последовательностям обучающей выборки(genes_starts.txt) была построена матрица PWM.

Скрипт с построением матрицы и гистограмм

0 1 2 3 4 5 6 7
A 0.91 -9.52 -9.52 0.35 -0.01 -0.10 0.18
T -1.96 1.29 -6.99 -0.56 -0.18 0.20 -0.50
G -0.50 -7.02 1.26 -0.23 -0.52 -0.44 -0.16
C -6.18 -8.58 -8.58 0.31 0.85 0.46 0.53
Матрица PWM

Пресказание наличия сигнала

В качестве порога был взят вес 2.

Сигнал Обучающая выборка положительный контроль Отрицательный контроль
+ 3917 3380 94
- 396 21 4291

Информационное содержание IC выравнивания составило 9,23. Скрипт для подсчета IC.

LOGO для окрестности ATG-кодона

Видно, что первая буква кодона не очень консервативна, тогда как вторые две постоянны.