Практикум 8

Автор старался, но не может гарантировать отсутствие биологических ошибок.

1. Краткое описание одного сигнала, закодированного в геноме

Для описания был выбран сигнал rho-зависимой терминации транскрипции у бактерий. Его носителем считается rut-сайт. Сигнал адерсован для крупной РНК-хеликазы - rho-белка. Считается, что при данном варианте терминации rho-белок сначала связывается с цитозин-богатым rut-сайтом (rho utilization site) на РНК, затем, взаимодействуя с РНК-полимеразой, вызывает терминацию транскрипции (Di Salvo et al). Однако, существует мнение, что rho-белок связывает РНК-полимеразу на ранней стадии элонгации, образуя комплекс, предшествующий терминации. Оброзование этого комплекса позоволяет rho-белку вести поиск rut-сайта и впоследствии удержать комплекс в неактивном состоянии до его диссоциации (Hao et al). Еще один вариант представлен на рисунке 1.

Rho-dependent termination
Рисунок 1. Предполагаемый механизм rho-зависимой терминации (Molodtsov et al). Rho-белок распознает PBS-лиганд (rut-сайт), затем и SBS-лиганд. Далее, после взаимодействия с NusG происходит активация rho-белка и последний осуществляет АТФ-зависимую транслокацию 5'→3' РНК в направлении TEC, оказывая механическое воздействие на TEC и разрушая его.

Личная гипотеза. Сигнал участвует в регуляции одного из важнеших биологических процессов, поэтому должен быть достаточно сильным. Однако, сила сигнала от rut-сайта будет зависеть от многих факторов, в частности, от длины и состава последовательности, структуры РНК, влияния других факторов транскрипции.

Rho-dependent termination
Рисунок 2. Метод, используемый для предсказания rho-зависимых терминаторов (Di Salvo et al).

Описание алгоритма предсказания сайта rut по статье di Salvo 2019. Ученые представили алгоритм предсказания rho-зависимых терминаторов - RhoTermPredict. Программа узнает эти сайты на основе раннее предложенного консенсунсного мотива общего для всех rho-зависимых терминаторов. Она ищет rut-сайт длиной в 78 нуклеотидов с высоким содержанием цитозина, за которым следует предполагаемый сайт остановки РНК-полимеразы. Для этого происходит сканирование последовательности окнами длины 78 нуклеотидов до тех пор, пока C/G содержание окна не превысит пороговое значение в 1 и цитозины при этом должны быть распределены равномерно (через каждый 11-13 нуклеотидов). Затем рассматривается окно в 128 нуклеотидов для максимизации C/G содержания в rut-сайте. Таким образом, находится предполагаемый rut-сайт в участке длиной 128 нуклеотидов.

Далее ищется участок, где останавливается РНК-полимераза. Предполагалось, что этот сайт представляет собой либо шпильку, либо присутствовал особый элемент G−11G−10(C/T)−1G+1. RhoTermPredict позволяет предсказывать сразу несколько предполагаемых rut-сайтов на одном участке и вести поиск терминаторов на обеих цепочках ДНК. Алгоритм дает каждому предсказанию максимум 15, минимум 6 очков. Далее, за наличие/отсутствие участков, высокого содержания C/G прибавляются или не прибавляются дополнительные очки.

Последовательность rut-сайта в hlyA. Последовательность мРНК гена гемолизина А E. coli. Воспользуемся программой, указанной в статье, чтобы попытаться найти сигнал rho-зависимой терминации в выбранной последовательности. Выдача программы.

Список литературы к первому заданию

  1. Di Salvo, Marco & Puccio, Simone & Peano, Clelia & Lacour, Stéphan & Alifano, Pietro. (2019). RhoTermPredict: An algorithm for predicting Rho-dependent transcription terminators based on Escherichia coli, Bacillus subtilis and Salmonella enterica databases. BMC Bioinformatics. 20. 117. 10.1186/s12859-019-2704-x.
  2. Hao, Zhitai & Svetlov, Vladimir & Nudler, Evgeny. (2021). Rho-dependent transcription termination: a revisionist view. Transcription. 12. 1-11. 10.1080/21541264.2021.1991773.
  3. Molodtsov, Vadim & Wang, Chengyuan & Firlar, Emre & Kaelber, Jason & Ebright, Richard. (2023). Structural basis of Rho-dependent transcription termination. Nature. 614. 10.1038/s41586-022-05658-1.

2. Поиск последовательностей представителей для одного из сигналов в геноме, построение PWM и оценка результатов поиска по этой PWM новых сайтов

Для выполнения задания была выбрана окрестность ATG кодона (последовательность Козак) - старта транскрипции в геноме человека (список генов). Воспользуемся скриптом, заимствованным у Начатого Влада. На вход ему подается только аннотированная таблица генов человека. Матрица строилась по участкам из 7 нуклеотидов до старт-кодона и 3 нуклеотидов после него. Выходные данные программы:

Таблица 1. Позиционная весовая матрица, построенная на материала обучения.
1 2 3 4 5 6 7 8 9 10 11 12 13
A -0.676 -0.676 -0.126 -0.089 0.05 -0.089 -0.34 1.218 -5.691 -5.691 -0.34 -0.052 -0.819
C0.590.3120.3470.071-0.2480.7170.892-5.327-5.327-5.327-0.3810.6430.275
G0.1980.7410.3120.5630.786-0.3120.115-5.327-5.3271.5820.851-0.2480.717
T-0.249-0.745-0.551-0.676-1.305-0.612-1.593-5.6911.218-5.691-0.551-0.551-0.494

Для всех последовательностей из трех выборок были вычислены веса, гистограммы весов представлены на рисунках 3-5. По гистограммам определим порог веса, выше которого находка считается правильной, равным 3,5. При таких и больших весах начинает обнаруживаться большое количество находок в тестовой выборке, при этом отсеивается большая часть негативной выборки.

Рисунок 3. Гистограмма весов последовательностей обучающей выборки.
Рисунок 4. Гистограмма весов последовательностей тестовой выборки.
Рисунок 5. Гистограмма весов последовательностей негативной выборки.

С учетом порогового значения в 3,5 построим таблицу результатов проверки - таблица 2. Обучающая выборка в основном состояла из последовательностей, в которых сигнал присутствовал, в положительном тесте действительно получалось выявлять сигнал намного чаще, чем в отрицательном тесте.

Таблица 2. Результаты поиска в разных выборках последовательности последовательности Козак.
Обучающая выборка Тестовая выборка Негативная выборка
Сигнал (+) 83 (83%) 230 (77%) 111 (37%)
Сигнал (-) 17 (17%) 70 (23%) 189 (63%)

Вычислим IC (информационное содержание) выравнивания. Подадим на вход скрипту Влада Начатого нашу обучающую выборку и получим матрицу IC (таблица 3). Для построения LOGO используем сервис WegLOGO 3, которому тоже вход подаем обучающую выборку - рисунок 3. Видим по IC и LOGO, что окрестность ATG кодона достаточно консервативна и обладает некоторым, хотя и слабовыраженным, но консенсусом.

Таблица 3. Матрица информационного содержания (IC).
1 2 3 4 5 6 7 8 9 10 11 12 13
A-0.146-0.146-0.047-0.0340.022-0.034-0.1031.7610.00.0-0.103-0.021-0.154
C0.3150.1260.1450.022-0.0570.4350.6430.00.00.0-0.0770.3620.107
G0.0720.460.1260.2920.51-0.0680.0380.00.02.2860.589-0.0570.435
T-0.083-0.151-0.135-0.146-0.151-0.141-0.1380.01.7610.0-0.135-0.135-0.128
logo
Рисунок 6. LOGO на основе обучающей выборки для последовательности Козак в геноме человека.