Wednesday, April 22, 2017. Posted by Marina Gladkova

Поиск сигналов. Теория.

Задание 1. Определение биологической роли транскрипционного фактора LexA в бактерии Bifidobacterium breve DSM 20213.



Практикум выполнен в паре с Екатериной Посицельской. Информация по практикуму пока доступна только с моей страницы. Для выполнения данного практикума была выбрана Bifidobacterium breve DSM 20213 - анаэробная грам-положительная палочковидная бактерия-пробиотик, принимающая активное участие в пищеварении. [1]

Bifidobacterium breve

Был исследован её транскрипционный фактор LexA. LexA-белок принадлежит к одноименному семейству и выступает чаще в качестве транскрипционного репрессора генов SOS-ответа бактерий. В некоторых случаях LexA может также активировать транскрипцию. Большинство SOS-генов, в свою очередь, кодирует белки, участвующие в протекции, репарации и репликации ДНК. LexA-регуляция была экспериментально изучена у разных видов Proteobacteria, Cyanobacteria, Firmicutes, Actinobacteria и Chloroflexi phyla. При отсутствии стрессовых условий репрессор LexA связывается с палиндромной последовательностью оператора в промоторном участке гена-мишени, останавливая таким образом его экспрессию. При повреждении ДНК LexA подвергается автопротеолизу (за счёт наличия у него HTH-домена (PF01726) на N-конце и пептидаз-подобного домена (PF00717) на C-конце), приводящему к остановке репрессии. [2], [3]

Используемые термины:
Мотив — сигнал, который есть у последовательностей, с которыми белок связывается, и отсутствует у последовательностей, с которыми белок не связывается;
Профиль — способ отображения мотива, основанный на выравнивании;
Паттерн — вид профиля, в котором указываются все основания/аминокислоты, встречающиеся в данной позиции без указания частот;
Консенсус — способ отображения мотива, в котором в каждой позиции указывается самое частое основание/аминокислота.


1. C помощью программы MEME был найден мотив связывания TCGAACATHTGTTCGA. MEME осуществляет поиск повторяющихся мотивов заданной длины в последовательности, подаваемой на вход. Позиционно-весовая матрица (PWM) для каждой буквы заданного алфавита (в данном случае A, C, G, T) отражает логарифм веса позиции. Вес позиции определяется как отношение наблюдаемой вероятности присутствия нуклеотида в данной позиции на ожидаемую вероятность (рассчитывается в среднем на геном) с учётом псевдокаунта (некая добавочная величина для избавления от логарифма нуля).

Таблица с описанием определённого MEME сайта
PWM
№ позицииACGT
1-201-234-134146
2-65193-434-482
3-150-1324210-1324
4167-275-1324-282
5178-1324-1324-1324
6-1324225-1324-482
7143-434-2-1324
8-1324-64-102139
9-3679-33443
10-482-434-1324175
11-1324-1324226-1324
12-482-1324-1324176
13-224-434-134154
14-1324222-1324-324
15-382-134195-165
16173-334-434-1324
E-value
6.1e-592
Информационное содержание
23.2
Logo



2. Далее при помощи сервиса Tomtom среди других бактерий был найден похожий по PWM мотив, предсказанный для указанного выше ТФ в базе RegTransBase. Tomtom сравнивает заданный мотив с известными мотивами из базы данных. На выходе при задании порогового значения E-value, равного единице, нашлось 2 транскрипционных фактора с примерно одинаковыми E-value (3.46e-02 в первой находке против 7.29e-02 во второй).

Таблица с описанием найденных Tomtom мотивов

Название ТФPsrA_ProteobacteriaRSc0472_Burkholderiales
Описание TФПринадлежит к семейству белков TetR, контролирует деградацию жирных кислот протеобактерий [4]Предполагаемый белок-регулятор транскрипции из бурой гнили картофеля (Ralstonia solanacearum) [5], [6]
PWM c указанием частот нуклеотидовдля PsrAдля RSc0472
P-value2.45e-045.17e-04
E-value3.46e-027.29e-02
Перекрывание1616
Сдвиг20
Ориентация++
Logo PsrA_Proteobacteria
Logo RSc0472_Burkholderiales

По изображением можно сделать вывод, что более консервативные позиции находятся по краям, в середине же мы наблюдаем 2-3 менее консервативные. Кроме того, различаются длины перекрываний мотивов: так, первая находка оказалась длиннее анализируемого мотива на 2 позиции. В целом, можно заключить, что мотивы достаточно отличны друг от друга, чему в подтверждение служит достаточно большое значение E-value.



3-4. После этого определённый в п.1 мотив был найден в геноме родственной бактерии Bifidobacterium breve ACS-071-V-Sch8b (в связи с отсутствием нашего штамма в базе) с использованием программы FIMO. Поиск умышленно производился по базе данных Upstream DB, содержащей только околопромотерные последовательности (именно с ними в большинстве случаев связываются ТФ), так как поиск мотива с невысоким информационным содержанием по всему геному занял бы слишком много времен и дал бы много случайных результов. На выходе программы были получены 183 мотива с p-value <= 0.0001, в таблице ниже приведены самые лучшие находки (порог p-value: e-07).

Таблица с описанием найденных FIMO мотивов

sequence_namestartstopstrandscore p-valuematched_sequence
1
YP_005582481.1
HMPREF9228_0599
5267
+
31.19511.3e-10 TCAAACATCTGTTCGA
2
YP_005582480.1
lexA
8499
-
31.19511.3e-10 TCAAACATCTGTTCGA
3
YP_005582727.1
uvrA
90105
+
20.46349.07e-08 TCGAACATGTGTTCGA
4
YP_005582728.1
HMPREF9228_0875
91106
-
20.46349.07e-08 TCGAACATGTGTTCGA
5
YP_005583119.1
HMPREF9228_1303
244259
-
20.46349.07e-08 TCGAACATTTGTTCGA
6
YP_005582133.1
HMPREF9228_0215
304319
+
20.46349.07e-08 TCAAGGATCTGTTCGA

Первая находка представляет собой пептидогликан-связывающий белок, содержащий консервативный LysM-домен (была реаннотирована в БД NCBI). Этот домен состоит из 40 аминокислотных остатков и встречается в различных белках, участвующих в деградации бактериальной клеточной стенки и ряде других метаболических путей.
Четвёртая находка — аспартатаминотрансфераза, участвует в метаболизме аспартата и глутамата, играет важную роль в высвобождении NH3 из аминокислот.
Пятая последовательность относится к белку ImpB, являющемуся структурной частью молекулярной машины T6SS [9], которая используется большим числом грам-отрицательных бактерий для транспорта белков из цитоплазмы бактерии в смежную клетку (впервые открыта у Vibrio cholerae в 2006 г.). Не совсем очевидно, почему данный ген нашёлся у нашей грам-положительной бактерии, есть данные о том, что он может способствовать формированию устойчивости.
Последняя находка была также реаннотирована, но не представляет особого интереса, так как белок является гипотетическим.
Что интересно, вторая находка относится к реаннотированному ТФ LexA, который обладает подавляющей активностью относительно самого себя. [10]
Третий белок - uvrA, обладающий АТФазной активностью и участвующий в процессах репарации, входит в общий метаболический путь вместе с LexA. Запись об этом белке вообще была удалена из базы.



5. Для проверки консервативности геномного окружения генов, регулируемых одним ТФ была использована база данных STRING. Однако из 6 описанных выше белков в базе нашлись только 3: LexA, uvrA2 и aspC. Два из которых, как было упомяното выше, метаболически связаны.

Выдача STRING





Задание 2. Проверка того, как метилирование может повлиять на связывание LexA со своим сайтом.



1. Программа fuzznuc из пакета EMBOSS используется для поиска PROSITE-паттернов в заданной последовательности. [11] Был составлен список специфических сайтов связывания метилтрансферазы по всем штаммам вида, представленным в базе REBASE. Далее был произведен поиск в полном геноме Bifidobacterium breve ACS-071-V-Sch8b данных участков специфичности. Полученные данные мы сравнили с координатами из выдачи после работы FIMO, однако пересечений не нашлось. Таким образом, мы не обнаружили корреляции между участками связывания ТФ и участками метилирования.



2. В базе REBASE по выбранному нами виду нашлись метилтрансферазы с одинаковой специфичностью, некоторые из них приведены ниже в таблице.

Таблица сайтов с одинаковой специфичностью (REBASE)

SpecifityNameOrganism
GGCGCCM.Bbr71ORF227PBifidobacterium breve ACS-071-V-Sch8b
M.BbrUIBifidobacterium breve UCC2003
M.Bbr27ORF224PBifidobacterium breve S27
M.Bbr2258ORF196PBifidobacterium breve NCFB 2258
M.Bbr689ORF196PBifidobacterium breve 689b
GATCM.Bbr2258ORF358PBifidobacterium breve NCFB 2258
M.Bbr27ORF383PBifidobacterium breve S27
M.Bbr20213ORFAPBifidobacterium breve DSM 20213

Источники