Данный практикум был выполнен совместно с Преображенской Юлией, мной было выполнено задание 1, Юлей - задание 2 (ссылка на страницу с ее частью работы).
Определение биологической роли определенного транскрипционного фактора в бактерии
Для выполнения практикума была выбрана бактерия Salmonella typhimurium LT2 (ее изображение представлено на Рис. 1). Данная бактерия принадлежит к семейству Энтеробактерий и является одним из возбудителей сальмонеллеза - острого инфекционного заболевания человека и животных с преимущественным поражением ЖКТ. Название рода бактерий (а от него - и название болезни) появилось от имени американского ветеринара Дэниэла Элмера Салмона, который в 1885 году выявил первый штамм сальмонеллы - Salmonella choleraesuis, вызывающий холеру у свиней. [1, 2]
Рис 1. Изображение бактерии Salmonella typhimurium LT2.
S. typhimurium может передаваться через птицу, говядину, свинину, дыни, арахисовое масло, помидоры. Ее переносчиками также могут быть ежи и некоторые виды лягушек. В последние годы источником этой бактерии особенно часто становился говяжий фарш [1]. Однако штамм LT2 является лабораторным и интересен тем, что от него после выделения ауксотрофных по гистидину мутантов his G-46 (мутация замены оснований в his G-гене гистидинового оперона), his C-3076 и his D-3052 (мутации типа сдвига рамки считывания в генах С и D соответственно) произошло множество других лабораторных штаммов. Полученные из S. typhimurium LT2 штаммы были использованы Брюсом Эймсом и его группой в Калифорнийском Университете для создания генетического теста Эймса, предназначенного для оценки мутагенного потенциала химических соединений. [3, 4]
Поиск мотива программой МЕМЕ
Сперва с помощью программы MEME был найден мотив связывания транскрипционного фактора LsrR. Для поиска был использован файл с участками ДНК, с которыми связывается данный транскрипционный фактор. Параметры поиска:
- Длина мотива: 6-31 п.н. (длина ограничена сверху длиной последоватльностей, поданных на вход);
- Расположение мотива: мотив может располагаться на любой из цепей ДНК;
- Ожидаемое количество мотивов в последовательности: от 0 до 3 (для нахождения 3-х разных мотивов, чтобы сравнить E-value, если это будет возможным)
Программа нашла всего один мотив (ссылка на выдачу в формате html), представленный на Рис. 2. Сводная информация о мотиве собрана в Таблицу 1.
Рис 2. Мотив, найденных программой MEME.
Таблица 1. Сводная информация о мотиве, найденном программое МЕМЕ | |
---|---|
Паттерн | GAACATTTWTAAATHWWWAAAWCATTTGTTC |
E-value | 8.4e-128 |
Число сайтов | 19 |
Длина | 31 нукл. |
PWM | ссылка |
Как видно из Рис. 2 и Таблицы 1, мотив покрывает всю длину входных последовательностей. Несмотря на то, что из всех 31 позиций консервативными являются только 10, е-value является достаточно низким, чтобы считать найденный мотив достоверным. К тому же, найденный мотив очень похож на мотив, имеющийся в БД RegPrecise (эта база данных содержит описания найденных биоинформатиками регуляторных последовательностей прокариот). Позиционная матрица весов была получена из html-выдачи МЕМЕ при переходе по ссылке Download motif -> Format: Probability matrix.
Поиск мотива с похожей PWM при момощи программы Tomtom
Далее при помощи сервиса Tomtom был найден похожий на выбранный (т.е. мотив с похожей PWM) мотив, предсказанный для LsrR в БД RegTransBase. Для этого в html-выдаче МЕМЕ по ссылке "Submit/Download -> Submit Motif -> Tomtom" мотив был загружен в форму сервиса, затем в разделе Select target motifs были выбраны Prokaryote DNA -> Prokaryotes (RegTransBase v4). Остальные параметры были оставлены по умолчанию.
С заданными параметрами Tomtom нашел 7 похожих мотивов с e-value меньше 10. В Таблице 2 представлена сводная информация о лучшей находке, а лого выравнивания изображено на Рис. 3. PWM получена из xml-выдачи программы.
Таблица 2. Сводная информация о лучшей находке программы Tomtom | |
---|---|
Название мотива | YPO0846_Enterobacteriales |
Название ТФ | Predicted sugar transport regulator in Enterobacteria (предсказанный регулятор транспорта сахара в энтеробактериях) |
E-value находки | 2.18e+00 |
Длина мотива/выравнивания | 20 нукл./35 нукл. |
PWM мотива | ссылка |
Рис 3. Выравнивание двух мотивов. Сверху изображен мотив YPO0846_Enterobacteriales, снизу - найденный программой МЕМЕ.
Как можно видеть из Рис. 3 и Таблицы 2, даже у лучшей находки слишком большое e-value, чтобы говорить о ее правдоподобности. В самом деле, мотивы слишком сильно различаются. Длина самого похожего мотива на 11 нукл. меньше, чем длина исходного, и кроме того найденный мотив сдвинут на 4 позиции по сравнению с исходным (таким образом, длина перекрывающегося участка составляет всего 16 нукл.). Видно также, что на перекрывающемся участке выравивания есть позиция, в которой варианты нуклеотидов для обоих мотивов полностью различны (позиция 16 найденного мотива, или 12 исходного).
Поиск мотива в геноме бактерии программой FIMO и генов, экспрессию которых может регулировать ТФ
Далее мотив, найденный МЕМЕ, был загружен в программу FIMO, чтобы найти его в геноме бактерии, выбранной для работы. Поиск велся по организму Salmonella enterica serovar Typhimurium LT2 uid57799 и только в upstream region, т.к. большинство ТФ связываются с последовательностью до гена по направлению транскрипции - как раз в upstream region. Также p-value находок было ограничено числом 1e-05, т.к. в ином случае (даже при 1e-04) находок было слишком много. Программа нашла 154 мотива, соответствующих указанным параметрам. Полную доступную информацию о находках можно посмотреть по ссылке.
Несмотря на общее количество найденных мотивов, только 4 лучшие из них обладают q-value достаточно маленьким, чтобы их можно было назвать достоверными. Кроме того, в записи из RegPrecise в качестве сайтов связывания ТФ указаны только сайты, соответствующие четырем лучшим находкам FIMO, так что было окончательно решено остановиться только на них. В Таблице 3 приведена сводная информация о лучших находках. Следует заметить, что начало upstream regions отсчитывалось в данном случае не от конца предыдущего гена, а от конца предыдущего CDS. Было решено оставить это как есть, т.к. координаты сайтов из RegPrecise совпадают с выдачей FIMO.
Таблица 3. Лучшие находки FIMO | |||||
---|---|---|---|---|---|
ID белка | Название гена/локуса | Координаты относительно гена | Координаты в геноме | Цепь | p-value |
NP_462955.1 | ego/STM4074 | 23..53 | 4283281..4283311 | + | 2.86e-14 |
NP_462954.1 | ydeW/STM4073 | 203..223 | 4283281..4283311 | - | 2.86e-14 |
NP_462954.1 | ydeW/STM4073 | 37..67 | 4283447..4283477 | - | 2.81e-12 |
NP_462955.1 | ego/STM4074 | 189..219 | 4283447..4283477 | + | 2.81e-12 |
Как видно из Таблицы 3, среди лучших находок представлены сайты, узнающиеся только 2-мя белками. Первый (лучшая и четвертая находки) - ген ego белка autoinducer 2 ABC transporter ATP-binding protein LsrA, который участвует в системе транспорта альдозы. Теперь становится немного яснее, почему лучшей находкой Tomtom оказался именно представленный выше мотив: его ТФ отвечает за регулирову транспорта сахара в энтеробактериях. Второй же (2-я и 3-я находки) - ген ydeW предполагаемого репрессора транскрипции (putative transcriptional repressor), который полностью идентичен выбранному для работы lsrR. Действительно, судя по данным БД RegPrecise, lsrR регулирует экспрессию lsrR. ¯\_(ツ)_/¯
STRING
Найденные гены не входят в один метаболический путь KEGG, поэтому было решено посмотреть, входят ли эти два найденных гена в в консервативное геномное окружение. Для этого была использована уже знакомая БД STRING. Поиск велся по названию (ydeW) и по организму (Salmonella enterica serovar Typhimurium LT2). Изображение геномного окружения и таблица взаимосвязей ydeW с остальными узлами графа представлены на Рис. 4 и 5 соответственно.
Рис 4. Геномное окружение ydeW, построенное программой STRING. Легенду можно посмотреть здесь.
Рис 5. Таблица взаимосвязей ydeW. Легенду можно посмотреть здесь.
Сразу видно, что БД STRING переименовала ydeW в lsrR, что неудивительно в силу их идентичности. К сожалению, как следует из изображений выше, все взаимосвязи графа не доказаны ни экспериментально, ни по данным каких-либо БД. Однако радует, что, во-первых, ego все же присутствует в выдаче и, во-вторых, ego и ydeW (lsrR) действительно совместно встречаются, коэкспрессируются и соседствуют в геноме. Данные карт геномного окружения и совместной встречаемости показали, что ego и ydeW (lsrR) совместно встречаются и соседствуют только в энтеробактериях, поэтому не могут образовывать консервативное геномное окружение. На самом деле, это было ожидаемо, т.к. большинство генов в каждом консервативном окружении кодируют белки, вовлеченные в один и тот же процесс или комплекс, а уже было сказано, что данные KEGG показали обратное.
Функции генов, предположительно регулируемых ТФ, представлены в Таблице 4.
Таблица 4. Функции генов, найденных FIMO | |
---|---|
Название гена | Функции |
ego | COG family: ABC-type sugar transport system, ATPase component (система транспорта сахаров АВС-типа, компонент АТФазы) |
ydeW | COG family: Transcriptional regulator, contains sigma factor-related N-terminal domain (регулятор транскрипции, содержит N-концевой домен, связанный с сигма-фактором) |