Учебный сайт Аксеновой Марины

Данный практикум был выполнен совместно с Преображенской Юлией, мной было выполнено задание 1, Юлей - задание 2 (ссылка на страницу с ее частью работы).

Определение биологической роли определенного транскрипционного фактора в бактерии

Для выполнения практикума была выбрана бактерия Salmonella typhimurium LT2 (ее изображение представлено на Рис. 1). Данная бактерия принадлежит к семейству Энтеробактерий и является одним из возбудителей сальмонеллеза - острого инфекционного заболевания человека и животных с преимущественным поражением ЖКТ. Название рода бактерий (а от него - и название болезни) появилось от имени американского ветеринара Дэниэла Элмера Салмона, который в 1885 году выявил первый штамм сальмонеллы - Salmonella choleraesuis, вызывающий холеру у свиней. [1, 2]

Рис 1. Изображение бактерии Salmonella typhimurium LT2.

S. typhimurium может передаваться через птицу, говядину, свинину, дыни, арахисовое масло, помидоры. Ее переносчиками также могут быть ежи и некоторые виды лягушек. В последние годы источником этой бактерии особенно часто становился говяжий фарш [1]. Однако штамм LT2 является лабораторным и интересен тем, что от него после выделения ауксотрофных по гистидину мутантов his G-46 (мутация замены оснований в his G-гене гистидинового оперона), his C-3076 и his D-3052 (мутации типа сдвига рамки считывания в генах С и D соответственно) произошло множество других лабораторных штаммов. Полученные из S. typhimurium LT2 штаммы были использованы Брюсом Эймсом и его группой в Калифорнийском Университете для создания генетического теста Эймса, предназначенного для оценки мутагенного потенциала химических соединений. [3, 4]

Поиск мотива программой МЕМЕ

Сперва с помощью программы MEME был найден мотив связывания транскрипционного фактора LsrR. Для поиска был использован файл с участками ДНК, с которыми связывается данный транскрипционный фактор. Параметры поиска:

  • Длина мотива: 6-31 п.н. (длина ограничена сверху длиной последоватльностей, поданных на вход);
  • Расположение мотива: мотив может располагаться на любой из цепей ДНК;
  • Ожидаемое количество мотивов в последовательности: от 0 до 3 (для нахождения 3-х разных мотивов, чтобы сравнить E-value, если это будет возможным)

Программа нашла всего один мотив (ссылка на выдачу в формате html), представленный на Рис. 2. Сводная информация о мотиве собрана в Таблицу 1.

Рис 2. Мотив, найденных программой MEME.
Таблица 1. Сводная информация о мотиве, найденном программое МЕМЕ
Паттерн GAACATTTWTAAATHWWWAAAWCATTTGTTC
E-value 8.4e-128
Число сайтов 19
Длина 31 нукл.
PWM ссылка

Как видно из Рис. 2 и Таблицы 1, мотив покрывает всю длину входных последовательностей. Несмотря на то, что из всех 31 позиций консервативными являются только 10, е-value является достаточно низким, чтобы считать найденный мотив достоверным. К тому же, найденный мотив очень похож на мотив, имеющийся в БД RegPrecise (эта база данных содержит описания найденных биоинформатиками регуляторных последовательностей прокариот). Позиционная матрица весов была получена из html-выдачи МЕМЕ при переходе по ссылке Download motif -> Format: Probability matrix.

Поиск мотива с похожей PWM при момощи программы Tomtom

Далее при помощи сервиса Tomtom был найден похожий на выбранный (т.е. мотив с похожей PWM) мотив, предсказанный для LsrR в БД RegTransBase. Для этого в html-выдаче МЕМЕ по ссылке "Submit/Download -> Submit Motif -> Tomtom" мотив был загружен в форму сервиса, затем в разделе Select target motifs были выбраны Prokaryote DNA -> Prokaryotes (RegTransBase v4). Остальные параметры были оставлены по умолчанию.

С заданными параметрами Tomtom нашел 7 похожих мотивов с e-value меньше 10. В Таблице 2 представлена сводная информация о лучшей находке, а лого выравнивания изображено на Рис. 3. PWM получена из xml-выдачи программы.

Таблица 2. Сводная информация о лучшей находке программы Tomtom
Название мотива YPO0846_Enterobacteriales
Название ТФ Predicted sugar transport regulator in Enterobacteria
(предсказанный регулятор транспорта сахара в энтеробактериях)
E-value находки 2.18e+00
Длина мотива/выравнивания 20 нукл./35 нукл.
PWM мотива ссылка

Рис 3. Выравнивание двух мотивов. Сверху изображен мотив YPO0846_Enterobacteriales, снизу - найденный программой МЕМЕ.

Как можно видеть из Рис. 3 и Таблицы 2, даже у лучшей находки слишком большое e-value, чтобы говорить о ее правдоподобности. В самом деле, мотивы слишком сильно различаются. Длина самого похожего мотива на 11 нукл. меньше, чем длина исходного, и кроме того найденный мотив сдвинут на 4 позиции по сравнению с исходным (таким образом, длина перекрывающегося участка составляет всего 16 нукл.). Видно также, что на перекрывающемся участке выравивания есть позиция, в которой варианты нуклеотидов для обоих мотивов полностью различны (позиция 16 найденного мотива, или 12 исходного).

Поиск мотива в геноме бактерии программой FIMO и генов, экспрессию которых может регулировать ТФ

Далее мотив, найденный МЕМЕ, был загружен в программу FIMO, чтобы найти его в геноме бактерии, выбранной для работы. Поиск велся по организму Salmonella enterica serovar Typhimurium LT2 uid57799 и только в upstream region, т.к. большинство ТФ связываются с последовательностью до гена по направлению транскрипции - как раз в upstream region. Также p-value находок было ограничено числом 1e-05, т.к. в ином случае (даже при 1e-04) находок было слишком много. Программа нашла 154 мотива, соответствующих указанным параметрам. Полную доступную информацию о находках можно посмотреть по ссылке.

Несмотря на общее количество найденных мотивов, только 4 лучшие из них обладают q-value достаточно маленьким, чтобы их можно было назвать достоверными. Кроме того, в записи из RegPrecise в качестве сайтов связывания ТФ указаны только сайты, соответствующие четырем лучшим находкам FIMO, так что было окончательно решено остановиться только на них. В Таблице 3 приведена сводная информация о лучших находках. Следует заметить, что начало upstream regions отсчитывалось в данном случае не от конца предыдущего гена, а от конца предыдущего CDS. Было решено оставить это как есть, т.к. координаты сайтов из RegPrecise совпадают с выдачей FIMO.

Таблица 3. Лучшие находки FIMO
ID белка Название гена/локуса Координаты относительно гена Координаты в геноме Цепь p-value
NP_462955.1 ego/STM4074 23..53 4283281..4283311 + 2.86e-14
NP_462954.1 ydeW/STM4073 203..223 4283281..4283311 - 2.86e-14
NP_462954.1 ydeW/STM4073 37..67 4283447..4283477 - 2.81e-12
NP_462955.1 ego/STM4074 189..219 4283447..4283477 + 2.81e-12

Как видно из Таблицы 3, среди лучших находок представлены сайты, узнающиеся только 2-мя белками. Первый (лучшая и четвертая находки) - ген ego белка autoinducer 2 ABC transporter ATP-binding protein LsrA, который участвует в системе транспорта альдозы. Теперь становится немного яснее, почему лучшей находкой Tomtom оказался именно представленный выше мотив: его ТФ отвечает за регулирову транспорта сахара в энтеробактериях. Второй же (2-я и 3-я находки) - ген ydeW предполагаемого репрессора транскрипции (putative transcriptional repressor), который полностью идентичен выбранному для работы lsrR. Действительно, судя по данным БД RegPrecise, lsrR регулирует экспрессию lsrR. ¯\_(ツ)_/¯

STRING

Найденные гены не входят в один метаболический путь KEGG, поэтому было решено посмотреть, входят ли эти два найденных гена в в консервативное геномное окружение. Для этого была использована уже знакомая БД STRING. Поиск велся по названию (ydeW) и по организму (Salmonella enterica serovar Typhimurium LT2). Изображение геномного окружения и таблица взаимосвязей ydeW с остальными узлами графа представлены на Рис. 4 и 5 соответственно.

Рис 4. Геномное окружение ydeW, построенное программой STRING. Легенду можно посмотреть здесь.
Рис 5. Таблица взаимосвязей ydeW. Легенду можно посмотреть здесь.

Сразу видно, что БД STRING переименовала ydeW в lsrR, что неудивительно в силу их идентичности. К сожалению, как следует из изображений выше, все взаимосвязи графа не доказаны ни экспериментально, ни по данным каких-либо БД. Однако радует, что, во-первых, ego все же присутствует в выдаче и, во-вторых, ego и ydeW (lsrR) действительно совместно встречаются, коэкспрессируются и соседствуют в геноме. Данные карт геномного окружения и совместной встречаемости показали, что ego и ydeW (lsrR) совместно встречаются и соседствуют только в энтеробактериях, поэтому не могут образовывать консервативное геномное окружение. На самом деле, это было ожидаемо, т.к. большинство генов в каждом консервативном окружении кодируют белки, вовлеченные в один и тот же процесс или комплекс, а уже было сказано, что данные KEGG показали обратное.

Функции генов, предположительно регулируемых ТФ, представлены в Таблице 4.

Таблица 4. Функции генов, найденных FIMO
Название гена Функции
ego COG family: ABC-type sugar transport system, ATPase component
(система транспорта сахаров АВС-типа, компонент АТФазы)
ydeW COG family: Transcriptional regulator, contains sigma factor-related N-terminal domain
(регулятор транскрипции, содержит N-концевой домен, связанный с сигма-фактором)

Источники информации

  1. Сальмонеллез – особенности болезни
  2. Сальмонеллёз
  3. География и мониторинг биоразнообразия
  4. Тест Эймса