Поиск сигналов. Теория.
Задание 1. Определение биологической роли транскрипционного фактора LexA в бактерии Bifidobacterium breve DSM 20213.
Практикум выполнен в паре с Екатериной Посицельской. Информация по
практикуму пока доступна только с моей страницы. Для выполнения данного практикума была выбрана Bifidobacterium breve DSM 20213 - анаэробная грам-положительная
палочковидная бактерия-пробиотик, принимающая активное участие в пищеварении. [1] Bifidobacterium breve Был исследован её транскрипционный фактор LexA. LexA-белок принадлежит к одноименному семейству и выступает чаще в качестве транскрипционного репрессора генов SOS-ответа бактерий. В некоторых случаях LexA может также активировать транскрипцию. Большинство SOS-генов, в свою очередь, кодирует белки, участвующие в протекции, репарации и репликации ДНК. LexA-регуляция была экспериментально изучена у разных видов Proteobacteria, Cyanobacteria, Firmicutes, Actinobacteria и Chloroflexi phyla. При отсутствии стрессовых условий репрессор LexA связывается с палиндромной последовательностью оператора в промоторном участке гена-мишени, останавливая таким образом его экспрессию. При повреждении ДНК LexA подвергается автопротеолизу (за счёт наличия у него HTH-домена (PF01726) на N-конце и пептидаз-подобного домена (PF00717) на C-конце), приводящему к остановке репрессии. [2], [3] Используемые термины: Мотив — сигнал, который есть у последовательностей, с которыми белок связывается, и отсутствует у последовательностей, с которыми белок не связывается; Профиль — способ отображения мотива, основанный на выравнивании; Паттерн — вид профиля, в котором указываются все основания/аминокислоты, встречающиеся в данной позиции без указания частот; Консенсус — способ отображения мотива, в котором в каждой позиции указывается самое частое основание/аминокислота. |
1. C помощью программы MEME был найден мотив связывания TCGAACATHTGTTCGA. MEME
осуществляет поиск повторяющихся мотивов заданной длины в последовательности, подаваемой на вход. Позиционно-весовая матрица (PWM) для каждой буквы заданного алфавита
(в данном случае A, C, G, T) отражает логарифм веса позиции. Вес позиции определяется как отношение наблюдаемой вероятности присутствия нуклеотида в данной
позиции на ожидаемую вероятность (рассчитывается в среднем на геном) с учётом псевдокаунта (некая добавочная величина для избавления от логарифма нуля).
2. Далее при помощи сервиса Tomtom среди других бактерий был найден похожий по PWM мотив, предсказанный для указанного выше ТФ в базе RegTransBase. Tomtom сравнивает заданный мотив с известными мотивами из базы данных. На выходе при задании порогового значения E-value, равного единице, нашлось 2 транскрипционных фактора с примерно одинаковыми E-value (3.46e-02 в первой находке против 7.29e-02 во второй).
По изображением можно сделать вывод, что более консервативные позиции находятся по краям, в середине же мы наблюдаем 2-3 менее консервативные. Кроме того, различаются длины перекрываний мотивов: так, первая находка оказалась длиннее анализируемого мотива на 2 позиции. В целом, можно заключить, что мотивы достаточно отличны друг от друга, чему в подтверждение служит достаточно большое значение E-value.
3-4. После этого определённый в п.1 мотив был найден в геноме родственной бактерии Bifidobacterium breve ACS-071-V-Sch8b (в связи с отсутствием нашего штамма в базе) с использованием программы FIMO. Поиск умышленно производился по базе данных Upstream DB, содержащей только околопромотерные последовательности (именно с ними в большинстве случаев связываются ТФ), так как поиск мотива с невысоким информационным содержанием по всему геному занял бы слишком много времен и дал бы много случайных результов. На выходе программы были получены 183 мотива с p-value <= 0.0001, в таблице ниже приведены самые лучшие находки (порог p-value: e-07).
Первая находка представляет собой пептидогликан-связывающий белок, содержащий консервативный LysM-домен (была реаннотирована в БД NCBI). Этот домен состоит из 40 аминокислотных остатков и встречается в различных белках, участвующих в деградации бактериальной клеточной стенки и ряде других метаболических путей.
Четвёртая находка — аспартатаминотрансфераза, участвует в метаболизме аспартата и глутамата, играет важную роль в высвобождении NH3 из аминокислот.
Пятая последовательность относится к белку ImpB, являющемуся структурной частью молекулярной машины T6SS [9], которая используется большим числом грам-отрицательных бактерий для транспорта белков из цитоплазмы бактерии в смежную клетку (впервые открыта у Vibrio cholerae в 2006 г.). Не совсем очевидно, почему данный ген нашёлся у нашей грам-положительной бактерии, есть данные о том, что он может способствовать формированию устойчивости.
Последняя находка была также реаннотирована, но не представляет особого интереса, так как белок является гипотетическим.
Что интересно, вторая находка относится к реаннотированному ТФ LexA, который обладает подавляющей активностью относительно самого себя. [10]
Третий белок - uvrA, обладающий АТФазной активностью и участвующий в процессах репарации, входит в общий метаболический путь вместе с LexA. Запись об этом белке вообще была удалена из базы.
5. Для проверки консервативности геномного окружения генов, регулируемых одним ТФ была использована база данных STRING. Однако из 6 описанных выше белков в базе нашлись только 3: LexA, uvrA2 и aspC. Два из которых, как было упомяното выше, метаболически связаны.
Таблица с описанием определённого MEME сайта
PWM | ||||
№ позиции | A | C | G | T |
1 | -201 | -234 | -134 | 146 |
2 | -65 | 193 | -434 | -482 |
3 | -150 | -1324 | 210 | -1324 |
4 | 167 | -275 | -1324 | -282 |
5 | 178 | -1324 | -1324 | -1324 |
6 | -1324 | 225 | -1324 | -482 |
7 | 143 | -434 | -2 | -1324 |
8 | -1324 | -64 | -102 | 139 |
9 | -36 | 79 | -334 | 43 |
10 | -482 | -434 | -1324 | 175 |
11 | -1324 | -1324 | 226 | -1324 |
12 | -482 | -1324 | -1324 | 176 |
13 | -224 | -434 | -134 | 154 |
14 | -1324 | 222 | -1324 | -324 |
15 | -382 | -134 | 195 | -165 |
16 | 173 | -334 | -434 | -1324 |
E-value | ||||
6.1e-592 | ||||
Информационное содержание | ||||
23.2 | ||||
Logo | ||||
2. Далее при помощи сервиса Tomtom среди других бактерий был найден похожий по PWM мотив, предсказанный для указанного выше ТФ в базе RegTransBase. Tomtom сравнивает заданный мотив с известными мотивами из базы данных. На выходе при задании порогового значения E-value, равного единице, нашлось 2 транскрипционных фактора с примерно одинаковыми E-value (3.46e-02 в первой находке против 7.29e-02 во второй).
Таблица с описанием найденных Tomtom мотивов
Название ТФ | PsrA_Proteobacteria | RSc0472_Burkholderiales |
Описание TФ | Принадлежит к семейству белков TetR, контролирует деградацию жирных кислот протеобактерий [4] | Предполагаемый белок-регулятор транскрипции из бурой гнили картофеля (Ralstonia solanacearum) [5], [6] |
PWM c указанием частот нуклеотидов | для PsrA | для RSc0472 |
P-value | 2.45e-04 | 5.17e-04 |
E-value | 3.46e-02 | 7.29e-02 |
Перекрывание | 16 | 16 |
Сдвиг | 2 | 0 |
Ориентация | + | + |
По изображением можно сделать вывод, что более консервативные позиции находятся по краям, в середине же мы наблюдаем 2-3 менее консервативные. Кроме того, различаются длины перекрываний мотивов: так, первая находка оказалась длиннее анализируемого мотива на 2 позиции. В целом, можно заключить, что мотивы достаточно отличны друг от друга, чему в подтверждение служит достаточно большое значение E-value.
3-4. После этого определённый в п.1 мотив был найден в геноме родственной бактерии Bifidobacterium breve ACS-071-V-Sch8b (в связи с отсутствием нашего штамма в базе) с использованием программы FIMO. Поиск умышленно производился по базе данных Upstream DB, содержащей только околопромотерные последовательности (именно с ними в большинстве случаев связываются ТФ), так как поиск мотива с невысоким информационным содержанием по всему геному занял бы слишком много времен и дал бы много случайных результов. На выходе программы были получены 183 мотива с p-value <= 0.0001, в таблице ниже приведены самые лучшие находки (порог p-value: e-07).
Таблица с описанием найденных FIMO мотивов
sequence_name | start | stop | strand | score | p-value | matched_sequence | |
YP_005582481.1 HMPREF9228_0599 | 52 | 67 | 31.1951 | 1.3e-10 | TCAAACATCTGTTCGA | ||
YP_005582480.1 lexA | 84 | 99 | 31.1951 | 1.3e-10 | TCAAACATCTGTTCGA | ||
YP_005582727.1 uvrA | 90 | 105 | 20.4634 | 9.07e-08 | TCGAACATGTGTTCGA | ||
YP_005582728.1 HMPREF9228_0875 | 91 | 106 | 20.4634 | 9.07e-08 | TCGAACATGTGTTCGA | ||
YP_005583119.1 HMPREF9228_1303 | 244 | 259 | 20.4634 | 9.07e-08 | TCGAACATTTGTTCGA | ||
YP_005582133.1 HMPREF9228_0215 | 304 | 319 | 20.4634 | 9.07e-08 | TCAAGGATCTGTTCGA |
Первая находка представляет собой пептидогликан-связывающий белок, содержащий консервативный LysM-домен (была реаннотирована в БД NCBI). Этот домен состоит из 40 аминокислотных остатков и встречается в различных белках, участвующих в деградации бактериальной клеточной стенки и ряде других метаболических путей.
Четвёртая находка — аспартатаминотрансфераза, участвует в метаболизме аспартата и глутамата, играет важную роль в высвобождении NH3 из аминокислот.
Пятая последовательность относится к белку ImpB, являющемуся структурной частью молекулярной машины T6SS [9], которая используется большим числом грам-отрицательных бактерий для транспорта белков из цитоплазмы бактерии в смежную клетку (впервые открыта у Vibrio cholerae в 2006 г.). Не совсем очевидно, почему данный ген нашёлся у нашей грам-положительной бактерии, есть данные о том, что он может способствовать формированию устойчивости.
Последняя находка была также реаннотирована, но не представляет особого интереса, так как белок является гипотетическим.
Что интересно, вторая находка относится к реаннотированному ТФ LexA, который обладает подавляющей активностью относительно самого себя. [10]
Третий белок - uvrA, обладающий АТФазной активностью и участвующий в процессах репарации, входит в общий метаболический путь вместе с LexA. Запись об этом белке вообще была удалена из базы.
5. Для проверки консервативности геномного окружения генов, регулируемых одним ТФ была использована база данных STRING. Однако из 6 описанных выше белков в базе нашлись только 3: LexA, uvrA2 и aspC. Два из которых, как было упомяното выше, метаболически связаны.
Выдача STRING
Задание 2. Проверка того, как метилирование может повлиять на связывание LexA со своим сайтом.
1. Программа fuzznuc из пакета EMBOSS используется для поиска PROSITE-паттернов в заданной последовательности. [11]
Был составлен список специфических сайтов связывания метилтрансферазы по всем штаммам вида, представленным в базе REBASE. Далее был произведен поиск в полном
геноме Bifidobacterium breve ACS-071-V-Sch8b данных участков специфичности. Полученные данные мы сравнили с координатами из выдачи после работы FIMO, однако
пересечений не нашлось. Таким образом, мы не обнаружили корреляции между участками связывания ТФ и участками метилирования.
2. В базе REBASE по выбранному нами виду нашлись метилтрансферазы с одинаковой специфичностью, некоторые из них приведены ниже в таблице.
2. В базе REBASE по выбранному нами виду нашлись метилтрансферазы с одинаковой специфичностью, некоторые из них приведены ниже в таблице.
Таблица сайтов с одинаковой специфичностью (REBASE)
Specifity | Name | Organism |
GGCGCC | M.Bbr71ORF227P | Bifidobacterium breve ACS-071-V-Sch8b |
M.BbrUI | Bifidobacterium breve UCC2003 | |
M.Bbr27ORF224P | Bifidobacterium breve S27 | |
M.Bbr2258ORF196P | Bifidobacterium breve NCFB 2258 | |
M.Bbr689ORF196P | Bifidobacterium breve 689b | |
GATC | M.Bbr2258ORF358P | Bifidobacterium breve NCFB 2258 |
M.Bbr27ORF383P | Bifidobacterium breve S27 | |
M.Bbr20213ORFAP | Bifidobacterium breve DSM 20213 |
Источники
- [1] MicrobeWiki: Bifidobacterium breve
- [2] RegPrecise: Collection of regulogs for LexA transcription factor family
- [3] RegPrecise: Collection of regulogs for LexA transcription factor
- [4] RegPrecise: Collection of regulogs for PsrA transcription factor
- [5] Uniprot: RSc0472
- [6] DOOR: RSc0472
- [7] InterPro: LysM domain
- [8] SMART: Lysin motif
- [9] Wikipedia: Type VI secrection system
- [10] Gisela Storz, Regine Hengge. Bacterial Stress Responses. ASM Press, 2011
- [11] PROSITE