Учебная страница курса биоинформатики,
год поступления 2015
Задания выполняются командой из двух человек. Самостоятельно записывайтесь в таблице и выбираете данные для работы команды из еще не занятых.
Задание 1. Определить биологическую роль определенного транскрипционного фактора в бактерии
Бактерию см. в файле. Там же указано имя файла в архиве с участками ДНК, с которыми связывается данный транскрипционный фактор.
C помощью программы MEME (например, здесь http://meme-suite.org/tools/meme) найдите мотив связывания. Приведите PWM, E-value и logo в протоколе.
С помощью сервиса tomtom (http://meme-suite.org/tools/tomtom) найдите похожий мотив (т.е. мотив с похожей PWM), предсказанным для этого ТФ в БД RegTransBase (выбрать среди предлагаемых БД). Охарактеризуйте различия двух мотивов. Приведите E-value находки tomtom, PWM и название ТФ в протоколе.
С помощью программы FIMO (http://meme-suite.org/tools/fimo) найдите мотив (мотив из п.1, если их было несколько, то лучший) в геноме бактерии. Обоснуйте почему мотив нужно искать только в upstream region. Приведите список координат находок и их p-value.
Найдите гены, экспрессию которых может регулировать ТФ (программой featcopy из пакета emboss извлечь координаты генов из того же генома, для которого получены координаты сайтов связывания ТФ, сравнить координаты сайтов связывания ТФ и координаты генов. Для этого можно использовать скрипт на питоне или Excel).
Важное уточнение Эти гены уже содержатся в выдаче FIMO, в случае, если поиск осуществлялся по upstream regions. FIMO выдает названия генов, в upstream областях которых были найдены сайты связывания ТФ и координаты сайта относительно этой области. Поэтому отберите из выдачи FIMO достаточно достоверные, на Ваш взгляд, находки, и поместите их в таблицу протокола. Однако для задания 2 нужно выяснить координаты генов и собственно upstream regions. Обратите внимание, что в случае поиска в upstream regions программа FIMO выдает относительные координаты для сайтов связывания ТФ, а не абсолютные (см. рис.1)!
Рисунок 1. Пример организации генов и соответствия координат FIMO для сайтов связывания ТФ раположению сайта относительно гена. Стрелками показаны гены, буквами обозначен upstream region, прямоугольником выделен сайт связывания ТФ. Для гена B, расположенного по прямой цепи, upstream region будет нумероваться начиная с 1 c конца фрагмента, соответствующего предыдущему гену А (в зависимости от его ориентации это будет начало или конец гена). Для гена B координаты сайта связывания CG TФ в выдаче FIMO будут записаны как-то так:
# motif_id |
sequence_name |
start |
stop |
strand |
score |
p-value |
q-value |
matched_sequence |
1 |
B |
4 |
5 |
+ |
29.988 |
1.48e-11 |
2.04e-05 |
CG |
Для гена А upstream region начинается от начала/конца гена B (опять же, в зависимости от ориентации) и продолжается до начала гена А. Для гена А выдача FIMO будет выглядеть как-то так:
# motif_id |
sequence_name |
start |
stop |
strand |
score |
p-value |
q-value |
matched_sequence |
1 |
А |
6 |
7 |
- |
29.988 |
1.48e-11 |
2.04e-05 |
CG |
Для того, чтобы определить координаты интересующих вас областей генома, Вам надо найти в аннотации генома координаты генов, в upstream regions которых были найдены сайты связывания ТФ, определить координаты upstream regions (от начала данного гена до начала/конца предыдущего, учитывая ориентацию генов в геноме) и вырезать соответствующие фрагменты из генома. Для этого можно скачать геном или в формате gbk, получить таблицы features средствами EMBOSS,найти координаты соответствующих генов и их upstream соседей, потом вырезать соответствующую последовательность из генома, например, средствами EMBOSS. Можно искть гены в файле .gff, а последовательность потом вырезать из файла в формате fasta. Эти данные будут нужны в задании 2, чтобы не искать сайты МТаз по всему геному.
Считайте, что ТФ регулирует экспрессию ближайшего гена в той же ориентации, что и сайт (Вам специально ничего считать не надо, можно ориентироваться на выдачу FIMO). Таблицу со списком генов поместите в протокол.
- Входят ли найденные гены или некоторые из них в один метаболический путь KEGG (БД STRING)? Если да, опишите его. Если нет, опишите функции генов, предположительно регулируемых ТФ.
Задание 2. Проверьте, может ли метилирование повлиять на связывание вашего ТФ со своим сайтом?
Есть данные, что метилирование специфических сайтов ДНК может влиять на экспрессию генов (см. например, pap operon). Бактериальные ДНК метилтрансферазы (МТазы) и (для некоторых) их сайты узнавания содержатся в БД REBASE (http://rebase.neb.com/).
- Используя fuzznuc из пакета EMBOSS найдите все сайты, пересекающиеся с предсказанными вами сайтами связывания ТФ, в вашей бактерии (в upstream regions, найденных в п.4). fuzznuc также выдает находки в относительных координатах. Приведите список находок, опишите наиболее интересные случаи - есть ли сайты МТаз, пересекающиеся с сайтом связывания ТФ, есть ли повторяющиеся сайты МТаз, что-то еще интересное?
Используя REBASE (http://tools.neb.com/genomes/) проверьте есть ли в вашем геноме или геномах других штаммов того же вида (если штаммов очень много, посмотрите 1-2) ДНК метилтрансферазы с той же специфичностью. Укажите их в протоколе.
Для ответа на этот вопрос предлагается взять (все или только из этого вида?) сайты Мтаз типов II и III преобразовать их в регулярные выражения (например, в сайте GANTC N обозначает любое основание A,T,G,C, остальные обозначения см. тут http://rebase.neb.com/rebase/rebrec.html), мотив связывания тоже и поискать одно в другом. Или картировать сайты на геном с помощью remap пакета EMBOSS и сравнить с координатами, найденными на шаге 3...