Учебный сайт Екатерины Швецовой

WebGeSTer

Совместная работа Швецовой Екатерины, Корягиной Алёны и Дюгая Ильи.

WebGeSTer – база данных и сервер для предсказаний ρ-независимых терминаторов прокариот.

Существует два альтернативных механизма терминации транскрипции прокариот: с участием ρ-фактора и без него. ρ-независимые терминаторы располагаются за 16-20 нуклеотидных пар от точки терминации и состоят из палиндромных последовательностей (последовательности, которые читаются одинаково слева направо и справа налево), которые содержат большое количество гуанина и цитозина. За этим участком может быть расположена олигоадениновая последовательность. Транскрипция в области палиндрома приводит к тому, что в получившемся РНК-транскрипте быстро образуется устойчивый элемент вторичной структуры – «шпилька», которая богата прочными G-C парами. «Шпилька» вызывает временную остановку полимеразы и прекращение транскрипции. В этот момент полимераза располагается на полиурациловом фрагменте последовательности (рис. 1). Вследствие того, что олигоуридиловый-олигоадениновой дуплекс является наименее прочным, он диссоциирует, мРНК освобождается от ДНК и РНК-полимеразы и транскрипция прекращается. Если в ДНК отсутствует полиадениновая последовательность, то во время паузы транскрипции диссоциации РНК не происходит и через некоторое время транскрипция возобновляется.

img44

Рис. 1. Механизм ρ-независимой терминации прокариот.

Терминаторная «шпилька» имеет следующие свойства (рис. 2):

  • длина стебля от 4 до 30 нуклеотидов
  • длина петли от 3 до 9
  • длина петли не более длины стебля + 2
  • количество неспаренных нуклеотидов (мисмэтчей) не более 3
  • длина полиуридинового фрагмента не менее 4
  • содержание G/C более 50%
  • низкое значение ΔG диссоциации РНК
  • расположение вблизи открытой рамки считывания

img44

Рис. 2. Схема «шпильки».

Также «шпильки» могут быть различных типов (рис. 3) - L, I, X, U, V. L-shaped - палиндромные структуры с полиуридиловым хвостом, I-shaped - без полиуридилового хвоста, X-shaped - терминаторы конвергентных генов, находящихся на разных цепях, U-shaped - более одной шпильки в пределах 50 нуклеотидов downstream участка гена, V-shaped - когда следующая шпилечная структура начинается перед тем как закончится предыдущая.

img44

Рис. 3. Типы «шпилек».

Сервер WebGeSTer осуществляет поиск таких ρ-независимых терминаторов у прокариот. Алгоритм поиска состоит из четырех этапов:

  • Начало поиска происходит одновременно с двух участков последовательности ДНК: первый фрагмент – G/C богатый фрагмент (>=50%), второй - обратнокомплементарный ему фрагмент в пределах следующих за первым фрагментом 70 нуклеотидов.
  • Поиск мисмэтчей (некомплементарных пар) при движении поиска по направлению к другому фрагменту.
  • Моделирование всех возможных структур «шпилек» с различными комбинациями гэпов и мисмэтчей. Расчет ΔG для каждой структуры по алгоритму Mfold. Выбор единственной структуры с наименьшим значением ΔG.
  • Оценка характеристик полученной «шпильки»: длин стебля, петли, наличие и количество мисмэтчей и гэпов. Если значения характеристик не соответствуют установленным нормам, то поиск шпильки возобновляется.
Схему, иллюстрирующую данный алгоритм, можно увидеть на рис. 4.

img44

Рис. 4. Алгоритм поиска ρ-независимых терминаторов у прокариот, реализованный сервисом WebGeSTer.

WebGeSTer содержит как базу данных, содержащую предсказания терминаторных шпилек для большого набора прокариот, так и программу для поиска таких последовательностей в геноме любого другого прокариотического организма.

Чтобы проиллюстрировать возможности WebGeSTer мы выбрали архею Vulcanisaeta distributa DSM 14429 (длина генома 2374137 нуклеотидов), терминаторы которой не содержатся в базе данных WebGeSTer, и провели для неё предсказание ρ-независимых терминаторов.

Для этого нужно пройти по ссылке "Run WebGeSTer", ввести параметры поиска шпилек (например, максимальную/минимальную длину, максимальное количество мистэтчей и др.) и загрузить геном нужной бактерии в виде файла в формате *.gbk (предварительно переконвертированного в формат *.gbkf.gz, который понимает WebGeSTer) либо в виде файлов *.fna and *.ffn (предварительно сжатых). Мы запускали поиск не меняя параметров по умолчанию и использовали формат *.gbk. Получена страница с результатами работы программы. Информацию о количестве найденных шпилек разных типов можно увидеть в таблице 1.

Таблица 1. Информация о ρ-независимых терминаторах Vulcanisaeta distributa DSM 14429. Получена с помощью сервера WebGeSTer.

Свойства Прямая цепь Обратная цепь Всего
Гены 1284 1258 2542
Терминаторы 204 178 382
Терминаторы с лучшим ΔG 163 148 311
L-терминаторы 58 47 105
L-терминаторы с лучшим ΔG 42 42 84
I-терминаторы 146 131 277
I-терминаторы с лучшим ΔG 121 106 227
X-терминаторы   7
X-терминаторы с лучшим ΔG   5
U-терминаторы 16 11 27
V-терминаторы 0 0 0

Также получен архив RawData.zip, содержащий подробную информацию о всех найденных шпильках (координаты, количество мисмэтчей и др.). Кроме того, если пройти по ссылке "Figures" на выходной странице, можно получить графические изображения каждой шпильки по отдельности. На рис. 5 можно увидеть несколько примеров.

img44

Рис. 5. Примеры ρ-независимых терминаторов археи Vulcanisaeta distributa DSM 14429. На изображении приведены шпильки L-shaped, X-shaped и U-shaped.

Также, пройдя по ссылке "Graphs" можно получить графики распределения терминаторов в downstream участке открытой рамки считывания (ORF). Пример такого графика можно увидеть на рис. 6.

img44

Рис. 6. График распределения L-shaped терминаторов прямой цепи (palinsreg) в downstream участке открытой рамки считывания (ORF) археи Vulcanisaeta distributa DSM 14429. "Точкой терминации" считается начало шпильки (Consider start of stem). По оси абсцисс отложено расстояние от стоп кодона ORF, по оси ординат - встречаемость терминаторов. Изображение получено с помощью WebGeSTer.

© Shvetsova Ekaterina, FBB MSU, 2013
Дата последнего изменения: 07.12.2016