Сигналы в геноме

Задание 1

Для изучения я выбрал сайт посадки Rho-фактора. Он представляет собой отрезок из 78 нуклеотидов на мРНК с большим отношением C/G (в предложенном алгоритме больше единицы) и равномерно распределенными C (в статье каждые 11-13 нуклеотидов). Rho-фактор, как известно, садится на свой сайт вблизи 3` конца мРНК, перемещается к 3` концу и заставляет РНК-полимеразу диссоциировать от мРНК. Так, как Rho-фактор движется по мРНК медленнее, чем РНК-полимераза, сигнал включает также консенсусную последовательность притормаживания РНК-полимеразы или GC-богатую шпильку чуть дальше к 3` концу (в алгоритме в пределах 150 нуклеотидов), чем сайт связывания Rho.

Адресатом данного сигнала является Rho-фактор, от которого ожидается связывание с представленным сайтом. Предположу, что сила данного сигнала высока, так как терминация транскрипции крайне важный процесс, поэтому, было бы логично, если бы Rho-фактор, связывался со своим сайтом, как только предоставлялась бы такая возможность.

Как только я посмотрел на код уважаемого доктора Ди Сальво, мне сразу стало понятно, что этот человек незнаком (или не был знаком на момент написания статьи) с современными производственными стандартами написания кода. Кроме того, мне кажется, господин Ди Сальво слишком вольготно распоряжается числами. Я могу понять откуда взялась длина сайта связывания - 78 нуклеотидов, но почему C богатый регион ищется в пределах 150 нуклеотидов от старта сайта непонятно. Мне кажется, его исследование достаточно невремязатратное, и могло бы быть выполнено куда лучше. На его месте я бы подобрал эти гиперпараметры опираясь на секвенирование транскриптомов с использованием ингибитора Rho.

Я бы безусловно не поленился написать этот алгоритм сам, будь этот семестр посвободнее: я реализовал его частично, и тем не менее, по моему, вполне достаточно для наших задач. Я реализовал поиск равномерно расположенных C в последовательностях обогащенных C и обедненных G, с помощью системы непересекающихся множеств выделил подходящие сайты, из них выбрал последний встречающийся. Я реализовал поиск только консенсусной последовательности притормаживания в конце мРНК. Я позволил себе несколько отойти от алгоритма из статьи, в работе Ди Сальво указано, что консенсусная последовательность притормаживания РНК-полимеразы находится ровно на конце мРНК, но в его алгоритме, она ищется не на конце мРНК а в окне размером 150 нуклеотидов от 3` конца сайта посадки. Я же искал эту последовательность, ровно как указано в статье: на конце мРНК. Среди полного аннотированного генома E.Coli я нашел 11 мРНК с таким типом терминации. Привожу названия генов и сайты ниже:

pcnB CAATCCCGAAACGTCTGACGACATTAACCCGCGATATCTGGCAGTTGCAGTTGCGTATGTCCCGTCGTCAGGGTAAACG metN CGCATCCGAAAACGCCGCTGGCGCAGAAGTTTATTCAGTCGACCCTGCATCTGGATATCCCGGAAGATTACCAGGAACG ybeZ TCACGCCATCGAAGTGCTGGCCGATGTCGAAGAGATCAGCTTTAACTTCTTCCACAGCGAAGACGTGGTTCGTCACCCT narZ CCAACGGCGCGCTGACTGCCCGCGCGGTGGTCAGCCAACGTGTACCGCCGGGCATGACCATGATGTATCACGCCCAGGA astD CCAGTACCGCGCCATTCGGCGGCATTGGTGCTTCCGGTAACCATCGCCCCAGCGCCTGGTATGCCGCAGATTACTGCGC wcaB GCGGCCCCGCTGCTGGTGCTGTATCGCATTATCACCGAATGCTTTTTCGGTTATGAAATCCAGGCTGCCGCGACCATTG eutH CGACCACTTAGGCTTCGCCGCTGCCAACATGAACGCCATGATCTTCCCGATGATTGTCGGCAAGTTGATCGGCGGCGTA csdA CGCTGGCGAAACGTCCCGGCTTTCGTTCATTCCGCTGCCAGGATTCCAGCCTGCTGGCCTTTGATTTTGCTGGCGTTCA yhfA CGCCTGTTTACGCACATTAATCTGCATTTTATCGTCACCGGTCGCGACCTGAAAGACGCAGCGGTTGCGCGTGCGGTTG fabR CGGTAATAATCCTAACGCCTTCCGGTTATTATTGCGGGAACGCTCCGGCACCTCCGCTGCGTTTCGTGCCGCCGTTGCG frdA AAGAGTCCCGCGGCGCGCACCAGCGTCTGGACGAAGGTTGCACCGAGCGTGACGACGTCAACTTCCTCAAACACACCCT

 

Как мы видим, программа отработала штатно, в каждой последовательности мы видим равномерно распределенные C, и некоторую обедненность G в сочетании с обогащенностью C.

Источник: Di Salvo, M., Puccio, S., Peano, C. et al. RhoTermPredict: an algorithm for predicting Rho-dependent transcription terminators based on Escherichia coli, Bacillus subtilis and Salmonella enterica databases. BMC Bioinformatics 20, 117 (2019). https://doi.org/10.1186/s12859-019-2704-x

Задание 2

Для изучения я выбрал последовательность Шайна-Дальгарно E. coli, которые выделил из выравнивания десяти нуклеотидов до ATG, в качестве теста выделил участки с такими же координатами из B. subtilis. Получилась следующая PWM:

0 1 2 3 4 5 6 A: 1.73 -2.14 -1.94 1.34 0.53 0.67 0.47 C: -4.92 -4.60 -5.90 -1.85 -2.01 -1.08 -0.22 G: -0.66 1.87 1.86 -0.86 0.72 -0.25 -0.50 T: -4.08 -4.88 -4.43 -0.57 -0.59 0.16 0.09

 

IC выравнивания равно 5.155. Гистограмма весов для положительных, отрицательных и тестовых примеров приведена ниже:

В качестве порога веса для положительного предсказания я выбрал 3. Получились результаты представленные ниже:

Таблица 1. Распределение по классам примеров с порогом равным трем.
Удовлетворяют PWM Не удовлетворяют PWM
Положительные примеры 798 170
Отрицательные примеры 67 4238
Тестовые примеры 589 3648

Видимо, последовательности Шайна-Дальгарно несколько варьируются у двух этих видов либо по составу, либо по положению относительно старт-кодона.