Поиск сигналов*



* Задание выполнялось вместе с Сашей Котюргиным (Саша: #1.3-1.5; Заира: #1.1, 1.2, 2.1, 2.2).

1. Биологическая роль транскрипционного фактора в бактерии Clostridium botulinum A




Рис.1. Clostridium Botulinum1
В первом задании необходимо было описать роль транскрипционного фактора (ТФ) бактерии Clostridium botulinum A.
Clostridium Botulinum — анаэробная грамположительная бактерия рода клостридий, возбудитель ботулизма2,3. Является облигатным анаэробом. В зависимости от синтезируемого ботулотоксина выделяют 7 серотипов: A-G4. Токсин бактерии синтезируют только при спорообразовании. Название вида происходит о botulus (лат. "сосиска"), т.к. XVIII-XIX вв. в Германии было распространено отравление сосисками, как предполагают, связанное с ботулизмом5. Ботулотоксин устойчив к разрушению ферментами ЖКТ, что позволяет ему попадать в кровь6. Он вызывает тяжелое заболевание — вялый паралич (поражение мотонейронов спинальных моторных центров, продолговатого мозга и периферической нервной системы), и является одним из самых сильных токсинов из известных на данный момент3. Ботулинический нейротоксин используется в современной косметологии («Ботокс»).

Файл с участками ДНК, с которыми связывается ТФ: YtrA_Clostridia-1.fasta.


MEME



Сервис MEME предназначен для поиска во входной последовательности повторяющихся мотивов фиксированной длины без гэпов.

Мотив — паттерн (участок ДНК) повторяющийся в родственных последовательностях и являющийся сайтом связывания определенного белка (в нашем случае — ТФ). Для поиска MEME использует позиционно-весовую матрицу (PWM). В ней количество столбцов соответствует размеру алфавита (4 нуклеотида), а количество строк — длине мотива. Сначала на основе множественного выравнивания без гэпов создается позиционная матрица частот, элементы которой соответствуют тому, сколько раз каждый нуклеотид встречается на конкретной позиции в мотиве. Затем полученная матрица преобразуется путём нормировки на общее число последовательностей в выравнивании. Таким образом, полученная матрица показывает, какова вероятность встретить данный нуклеотид в данной позиции в исходном выравнивании. При этом сумма значений каждой строки, то есть вероятность встретить какой-нибудь нуклеотид, в случае исходного выравнивания без гэпов равна 1.
При выравнивании небольшого числа последовательностей может возникнуть ситуация, когда в некоторой позиции представлены не все нуклеотиды. Тогда вероятность получить этот нуклеотид при генерации случайной последовательности из этой матрицы будет равна нулю. Чтобы этого избежать, к каждому элементу вероятностной матрицы прибавляется некоторое значение, называемое псевдосчетом.
На последнем шаге из вероятностной матрицы получают PWM, вычисляя вес каждого элемента по формуле Wi = ln(Pi/P), где Wi — вес, Pi — вероятность нуклеотида в данной позиции, P — вероятность появления данного нуклеотида в данной позиции (зависит от выбранной фоновой модели).

В таблице 1 приведена информация о найденном мотиве.
Таблица 1. Информация о найденном мотиве
Лого Паттерн E-value PWM Число сайтов Длина мотива
ARGTGTACTAVYWMWHHTARYACAC 8.7e-017 motif_1_freqs.txt 5 25 нуклеотидов

Таким образом, MEME нашел мотив длиной 25 нуклеотидов, при этом исходные участки были длиной 27 нуклеотидов, т.е. найденный мотив покрывает почти всю их длину. Кроме того, видно, что 15 из 25 позиций мотива консервативны да и e-value достаточно низкий, чтобы можно было предположить, что результат достоверен. Тем не менее, стоит помнить, что MEME имеет ряд недостатков (например, он ищет только мотивы без гэпов и предполагает отсутствие зависимости позиций выравнивания).


TOMTOM



Сервис TOMTOM предназначен для сравнения мотивов с известными мотивами из БД. Найденный в предыдущем пункте мотив был подан на вход (Submit motif >> Tomtom). Поиск производился по БД RegTransBase (Prokaryote DNA >> RegTransBase). В таблице 2 представлена информация о лучшей находке, показанной на рис. 1.

Рис. 1. Лого находки и исходного мотива


Таблица 2. Информация о лучшей находке
E-value 6.47e-02
PWM motif_2_freqs.txt
Название ТФ Predicted glycoside utilization regulator in Vibrio and Yersinia
(предсказанный регулятор утилизации гликозида у вибрионов и иерсиний)
Длина мотива 20 нуклеотидов
Покрытие 20
Ориентация комплементарная




С учетом большого e-value находки сложно говорить о ее правдоподобности. Различия мотивов отчетливо видны на рис.1: совпадающих позиций очень мало. Более того, тот факт, что ТФ является "предсказанным", тоже заставляет сомневаться. Что же известно об этом ТФ? Он принадлежит семейству ТФ Lacl и, возможно, связывается с палиндромными участками ДНК7. При этом найденный MEME мотив не может входить в палиндром, так как несимметричен. У остальных находок e-value вообще был > 1.


FIMO



Сервис FIMO сканирует БД последовательностей в поисках совпадений с входным мотивом. Для нашего мотива из п. 1 был получен следующий список находок (поиск шел по геному нашей бактерии с ограничением по p-value < e-05): fimo.txt. В таблице 3 приведена информация о двух лучших из них, а также об еще одной, которая нам достаточно интересной.
Таблица 3. Две лучшие находки в геноме бактерии Clostridium botulinum A
ID белка Название гена или локуса Цепь Координаты (относительно гена) Координаты (абсолютные в геноме) p-value Совпавший участок
YP_001255293.1 hcp + 58..82 2954655..2954679 5.59e-13 AAGTGTACTACTACACCTAATACAC
YP_001255292.1 CBO2791 - 315..339 2954655..2954679 5.59e-13 AAGTGTACTACTACACCTAATACAC
YP_001253323.1 CBO0786 + 6..30 888634..888658 4.09e-06 AAGTTTACAAGGATTCATAGCTCAC

Первая находка обозначена как сайт, узнающийся белком YP_001255293.1 — гидроксиламин-редуктазой8, которая катализирует восстановление гидроксиламина с образованием NH3 и H2O и, очевидно, ТФ не является. Вообще FIMO выдал несколько таких находок.

Вторая находка уже интереснее: это белок YP_001255291.1, про который нам удалось найти немного информации. Мы нашли предсказанный по нашим же исходным участкам мотив в RegPrecise — это такой сайт с описаниями найденных биоинформатиками регуляторных последовательностей прокариот. Видимо, именно предложенный на этой странице файл с сайтами и был дан нам в этом задании как исходный файл с участками связывания ТФ. Аннотированный ими мотив очень похож на найденным нами с помощью MEME, хотя, видимо, искался каким-то другим способом. На сайте написано, что мотив узнается ТФ YtrA из семейства GntR, хорошо описанного для E. coli9. Название семейства происходит от "gluconate repressor" — ТФ, подавляющего экспрессию оперона gntRKPZ у Bacillus subtilis10, в честь которого и было названо семейство. ТФ из этого семейства содержат хорошо известный мотив "спираль-поворот-спираль", позволяющий связываться с ДНК. Тут хочется отметить прикольный факт: ТФ из уже упоминавшегося семейства Lacl (см. предыдущий пункт) также содержат этот мотив "спираль-поворот-спираль"11. В данном случае, на сайте написано, что ТФ регулирует устойчивость нашей бактерии к антибиотикам. Тем не менее, все это пока что на уровне предсказаний, поэтому однозначный вывод делать сложно.

Третья находка оказалась еще интереснее: этот сайт узнается регуляторным белком YP_001253323.1, информации о котором очень мало. Зато мы нашли интересную статью12 о двухкомпонентной системе регуляции CBO0787/CBO0786, подавляющей транскрипцию ботулотоксина у Clostridium botulinum. Авторы этого исследования показали, что рекомбинантный CBO0786 связывается с консервативными -10 сайтами промоторов оперонов ha и ntnh-botA, кодирующими структурный и вспомогательный белок ботулотоксина. Двухкомпонентная система сигнальной трансдукции CBO0787/CBO0786 (рис. 2) подавляет экспрессию нейротоксина.

Рис. 2. Двухкомпонентная система сигнальной трансдукции и опероны ботулотоксина.

Микроорганизмы способны распознавать, обрабатывать и адекватно отвечать на большое количество сигналов из внешней среды благодаря сигнальной трансдукции. Сигнальная трансдукция заключается в распознавании сигнала, его проведении и активации соответствующих генов. У прокариот сигнальная трансдукция происходит с помощью двухкомпонентных систем. Сигналом для активации может служить изменение ионной концентрации среды, присутствие антибиотика и другие факторы. Двухкомпонентная сигнальная система у патогенных микроорганизмов может приводить к инициации паразитического образа жизни и развитию инфекционного заболевания, а также формированию антибиотикорезистентности13.

Больше ничего важного найдено не было, в основном сайты связывания гипотетических белков. В общем, ничего не понятно.


Поиск регулируемых генов



В БД KEGG мы попробовали найти белок YP_001255293.1 (гидроксиламин-редуктазу). Оказалось, что она входит в ортологический ряд K05601 (EC:1.7.99.1) и метаболический путь CBO00910 (изображение с выделенным белком). Таким образом, как уже говорилось, гидроксиламин-редуктаза участвует в обмене азота.

Для двух других белков были найдены соответствующие записи в БД KEGG: CBO0786 и CBO2791. Первый белок — это мембранный белок из семейства VanZ, а второй — ДНК-связывающий белок, регуляторующий клеточный ответ. Никаких путей для них, к сожалению, найдено не было. В принципе, в предыдущем пункте мы уже все предполагаемые функции описали, так что метаболический путь тут не так уж и важен.


2. Влияние метилирования на связывание ТФ со своим сайтом



Метилирование — один из эпигенетических механизмов регуляции экспрессии генов, который заключается в переносе метильной группы на один из нуклеотидов. У прокариот это, чаще всего, аденин или цитозин. У бактерий помимо регуляции экспрессии генов система метилирования-рекогниции (рестрикции-модификации) позволяет клетке идентифицировать свой генетический материал и отличать его от инородных молекул, проникших в клетку тем или иным способом. Уничтожение последних позволяет поддерживать генетическую стабильность вида14.

Программа fuzznuc пакета EMBOSS предназначена для поиска паттернов в заданной последовательности. Эта программа использовалась для поиска сайтов метилирования, пересекающихся с тремя найденными FIMO в п. 2 мотивами (были взяты сами мотивы и участки ± 50 нуклеотидов по бокам от них). В участках искались сайты из файла MT-sites.pat, содержащего сайты метилирования:
 fuzznuc -sequence motifX.fa -pattern @MT-sites.pat -outfile fuzznucX.out
(X = 1 или 2). Информация о взятых участках, а также результаты программы представлены в таблице 4.
Таблица 4. Найденные программой fuzznuc сайты метилирования в участках генома Clostridium botulinum A str. ATCC 3502
Название гена/локуса Исходные координаты мотива Координаты взятого участка Длина взятого участка Число найденных совпадений Файл с мотивом Файл с результатом
hcp и CBO2791 2954655..2954679 2954605..2954729 125 114 motif1.fa fuzznuc1.out
CBO0786 888634..888658 888580..888708 129 116 motif2.fa fuzznuc2.out

В файлах с результатами оказалось много найденных "пересечений", состоящих из 1-2 нуклеотидов. Как предотвратить поиск таких сайтов непонятно. Поэтому из файлов с результатами были удалены находки длиной менее 3 нуклеотидов. Итоговые результаты для первого мотива и для второго мотива. Таким образом осталось 47 находок в первом случае и 56 во втором. Однако такое количество находок сомнительно, так как большинство сайтов представляют собой последовательности из нуклеотидов, записанных с помощью ambiquity code. Из-за этого число находок завышено. Более того, большинство сайтов маленькой длины, что, опять же, обеспечивает много незначимых находок.

В БД REBASE был найден геном нашей бактерии и закодированные в нем метилтрансферазы. Только для одной из них в БД указана специфичность: GATC (в списке это pattern513). Этот сайт найден в наших участках не был, так что можно предположить, что связывание ТФ со своими сайтами никак не регулируется их метилированием.

Ссылки:

[1] Clostridium botulinum: Honey and Home-canned foods // Pediatric Infectious Disease. [URL].
[2] Peck, MW (2009). Biologycoat and genomic analysis of Clostridium botulinum. Advances in microbial physiology, 55: 183–265, 320.
[3] Lindström, M; Korkeala, H (Apr 2006). Laboratory diagnostics of botulism. Clinical Microbiology Reviews, 19 (2): 298–314.
[4] Peck, MW; Stringer, SC; Carter, AT. (2011). Clostridium botulinum in the post-genomic era. Food Microbiol., 28 (2): 183–91.
[5] Frank J. Erbguth. (2004). Historical notes on botulism, Clostridium botulinum, botulinum toxin, and the idea of the therapeutic use of the toxin. Movement Disorders, 19 (S8): S2-S6.
[6] (2010). Chapter 29. Clostridium, Peptostreptococcus, Bacteroides, and Other Anaerobes. In Ryan K.J., Ray C (Eds), Sherris Medical Microbiology, 5th ed.
[7] VP2396_Vibrio_Yersinia // RegTransBase. [URL].
[8] A7FX38 (HCP_CLOB1) // UniProt. [URL].
[9] P0ACP5 (GNTR_ECOLI) // UniProt. [URL].
[10] P10585 (GNTR_BACSU) // UniProt. [URL].
[11] LacI-type HTH domain signature and profile // PROSITE. [URL].
[12] Zhen Zhang, Hannu Korkeala, Elias Dahlsten, Elina Sahala, John T. Heap, Nigel P. Minton, Miia Lindström. (2013). Two-Component Signal Transduction System CBO0787/CBO0786 Represses Transcription from Botulinum Neurotoxin Promoters in Clostridium botulinum ATCC 3502. PLoS Pathog. 9(3):e1003252.
[13] Двухкомпонентная сигнальная трансдукция // Studopedia.org. [URL].