Поиск сигналов. Теория
Поиск регуляторных мотивов транскрипции в бактериальных последовательностях
Для поиска использовали набор промоторных областей E.coli. Всего промоторных областей в файле 10 штук, каждая длиной 100 нуклеотидов. Использовали сайт MEME для поиска сигнальных мотивов — участков связывания ДНК с белком PurR, который является пуриновым репрессором. Лого сигнального участка для одной из последовательностей представлено на рисунке 1.
Разметка в исходных последовательностях сайтов связывания PurR, как экспериментальных, так и найденных программой MEME с разными параметрами — в файле. Во всех последовательностях нашлось по одному сайту связывания белка, каждый длиной 19 нуклеотидов. Эти сайты совпали с экперементальными.
Описание сервиса WebGeSTer
WebGeSTer (Genome Scanner for Terminators) — сервис, который позволяет находить Rho-независимые терминаторы транскрипции. Он может работать с полностью аннотированными геномами бактерий. Поиск можно проводить по таксону (WebGeSTer DB в меню) или по одному геному (Run WebGeSTer). Здесь будет разобран поиск по одному геному.
Программа принимает на вход либо (1) файл с геномом формата .gbk (GenBank), либо (2) два файла формата .fna (FASTA Nucleic Acid) и .ffn (FASTA nucleotide coding regions). Необходимо выбрать одну из опций (1)-(2) и:
- (1а) скачать файл с FTP-сервера NCBI
- (1б) файл .gbk переформатировать в .gbkf.gz, подходящий для WebGeSTer, нажав на ссылку в боксе
- (2а) скачать файлы с FTP-сервера NCBI
- (2б) геном в форматах .fna и .ffn нужно заархивировать, чтобы на вход программе дать файлы .fna.gz и .ffn.gz. Это можно сделать, также нажав на ссылку в боксе или же с помощью программы 7-Zip, выбрав формат .gz.
Необходимо указать параметры терминаторов: минимальную и максимальную длину стебля, длину петли, длину mismatch-участка посередине стебля, максимальное расстояние от рамки считывания, пороговое значение энергии Гиббса (зависит от GC-состава шпильки). Чем отрицательнее энергия Гиббса, тем стабильней структура терминатора.
Программа выдает сведения о терминаторах в виде таблиц, картинок и графиков.
В таблице 1 (рис. 2) содержится информация о всех терминаторах на + и - цепях ДНК. Greatest ΔG: палиндромные структуры терминаторов, находящиеся в downstream-направлении от гена, с лучшей энергией Гиббса.
L: структуры терминаторов с U-участками. I: структуры терминаторов без U-участков. X: гены "X-формы" или конвергентные гены U: тандемные структуры — >=2 последовательные структуры, в интервале <=50 нуклеотидов друг от друга V: в случае, когда следующий терминатор начинается до окончания предыдущего.
Вторая таблица на рисунке 2 показывает параметры, данные на вход программе. В том числе значение ΔG: стандартное (специфичное для вида) или конкретное, введенное пользователем.
В разделе "Figures" можно посмотреть вторичные структуры всех найденных терминаторов. Раздел "Graphs" позволяет построить графики зависимости расстояния терминаторов до стоп-кодона от числа терминаторов с разными параметрами. Подробнее