Сигналы в геноме

Задание 1

Для изучения я выбрал сайт посадки Rho-фактора. Он представляет собой отрезок из 78 нуклеотидов на мРНК с большим отношением C/G (в предложенном алгоритме больше единицы) и равномерно распределенными C (в статье каждые 11-13 нуклеотидов). Rho-фактор, как известно, садится на свой сайт вблизи 3` конца мРНК, перемещается к 3` концу и заставляет РНК-полимеразу диссоциировать от мРНК. Так, как Rho-фактор движется по мРНК медленнее, чем РНК-полимераза, сигнал включает также консенсусную последовательность притормаживания РНК-полимеразы или GC-богатую шпильку чуть дальше к 3` концу (в алгоритме в пределах 150 нуклеотидов), чем сайт связывания Rho.

Адресатом данного сигнала является Rho-фактор, от которого ожидается связывание с представленным сайтом. Предположу, что сила данного сигнала высока, так как терминация транскрипции крайне важный процесс, поэтому, было бы логично, если бы Rho-фактор, связывался со своим сайтом, как только предоставлялась бы такая возможность.

Как только я посмотрел на код уважаемого доктора Ди Сальво, мне сразу стало понятно, что этот человек незнаком (или не был знаком на момент написания статьи) с современными производственными стандартами написания кода. Кроме того, мне кажется, господин Ди Сальво слишком вольготно распоряжается числами. Я могу понять откуда взялась длина сайта связывания - 78 нуклеотидов, но почему C богатый регион ищется в пределах 150 нуклеотидов от старта сайта непонятно. Мне кажется, его исследование достаточно невремязатратное, и могло бы быть выполнено куда лучше. На его месте я бы подобрал эти гиперпараметры опираясь на секвенирование транскриптомов с использованием ингибитора Rho.

Я бы безусловно не поленился написать этот алгоритм сам, будь этот семестр посвободнее: я реализовал его частично, и тем не менее, по моему, вполне достаточно для наших задач. Я реализовал поиск равномерно расположенных C в последовательностях обогащенных C и обедненных G, с помощью системы непересекающихся множеств выделил подходящие сайты, из них выбрал последний встречающийся. Я реализовал поиск только консенсусной последовательности притормаживания в конце мРНК. Я позволил себе несколько отойти от алгоритма из статьи, в работе Ди Сальво указано, что консенсусная последовательность притормаживания РНК-полимеразы находится ровно на конце мРНК, но в его алгоритме, она ищется не на конце мРНК а в окне размером 150 нуклеотидов от 3` конца сайта посадки. Я же искал эту последовательность, ровно как указано в статье: на конце мРНК. Среди полного аннотированного генома E.Coli я нашел 11 мРНК с таким типом терминации. Привожу названия генов и сайты ниже:

pcnB CAATCCCGAAACGTCTGACGACATTAACCCGCGATATCTGGCAGTTGCAGTTGCGTATGTCCCGTCGTCAGGGTAAACG
metN CGCATCCGAAAACGCCGCTGGCGCAGAAGTTTATTCAGTCGACCCTGCATCTGGATATCCCGGAAGATTACCAGGAACG
ybeZ TCACGCCATCGAAGTGCTGGCCGATGTCGAAGAGATCAGCTTTAACTTCTTCCACAGCGAAGACGTGGTTCGTCACCCT
narZ CCAACGGCGCGCTGACTGCCCGCGCGGTGGTCAGCCAACGTGTACCGCCGGGCATGACCATGATGTATCACGCCCAGGA
astD CCAGTACCGCGCCATTCGGCGGCATTGGTGCTTCCGGTAACCATCGCCCCAGCGCCTGGTATGCCGCAGATTACTGCGC
wcaB GCGGCCCCGCTGCTGGTGCTGTATCGCATTATCACCGAATGCTTTTTCGGTTATGAAATCCAGGCTGCCGCGACCATTG
eutH CGACCACTTAGGCTTCGCCGCTGCCAACATGAACGCCATGATCTTCCCGATGATTGTCGGCAAGTTGATCGGCGGCGTA
csdA CGCTGGCGAAACGTCCCGGCTTTCGTTCATTCCGCTGCCAGGATTCCAGCCTGCTGGCCTTTGATTTTGCTGGCGTTCA
yhfA CGCCTGTTTACGCACATTAATCTGCATTTTATCGTCACCGGTCGCGACCTGAAAGACGCAGCGGTTGCGCGTGCGGTTG
fabR CGGTAATAATCCTAACGCCTTCCGGTTATTATTGCGGGAACGCTCCGGCACCTCCGCTGCGTTTCGTGCCGCCGTTGCG
frdA AAGAGTCCCGCGGCGCGCACCAGCGTCTGGACGAAGGTTGCACCGAGCGTGACGACGTCAACTTCCTCAAACACACCCT

Как мы видим, программа отработала штатно, в каждой последовательности мы видим равномерно распределенные C, и некоторую обедненность G в сочетании с обогащенностью C.

Источник: Di Salvo, M., Puccio, S., Peano, C. et al. RhoTermPredict: an algorithm for predicting Rho-dependent transcription terminators based on Escherichia coli, Bacillus subtilis and Salmonella enterica databases. BMC Bioinformatics 20, 117 (2019). https://doi.org/10.1186/s12859-019-2704-x

Задание 2

Для изучения я выбрал последовательность Шайна-Дальгарно E. coli, которые выделил из выравнивания десяти нуклеотидов до ATG, в качестве теста выделил участки с такими же координатами из B. subtilis. Получилась следующая PWM:

        0      1      2      3      4      5      6
A:   1.73  -2.14  -1.94   1.34   0.53   0.67   0.47
C:  -4.92  -4.60  -5.90  -1.85  -2.01  -1.08  -0.22
G:  -0.66   1.87   1.86  -0.86   0.72  -0.25  -0.50
T:  -4.08  -4.88  -4.43  -0.57  -0.59   0.16   0.09

IC выравнивания равно 5.155. Гистограмма весов для положительных, отрицательных и тестовых примеров приведена ниже:

Рисунок 2. Лого выравнивания

В качестве порога веса для положительного предсказания я выбрал 3. Получились результаты представленные ниже:

**Таблица 1.** Распределение по классам примеров с порогом равным трем.
	Удовлетворяют PWM	Не удовлетворяют PWM
Положительные примеры	798	170
Отрицательные примеры	67	4238
Тестовые примеры	589	3648

Видимо, последовательности Шайна-Дальгарно несколько варьируются у двух этих видов либо по составу, либо по положению относительно старт-кодона.