Учебная страница курса биоинформатики,
год поступления 2022
Внимание. Программы пакета MEME строят и используют не PWM, а PFM - частотную матрицу: для каждой колонки выравнивания сигналов указывается частота каждой из букв A,C, G, T. Из неё PWM получается как логарифм отношения правдопоподобия с учётом псевдоотсчётов. (см. презентацию Л8)
Найти мотив одного сигнала с помощью программы или сервиса MEME и проверить его работу с помощью программы или сервиса FIMO
Штатный вариант - поиск сигнала посадки сигма-субъединицы РНК-полимеразы в промоторах генов генома одной бактерии. Указания написаны для него.
Зачёт задания можно получить и за использование программ MEME и FIMO для поиска других сигналов. Например, сайта SD посадки рибосомы у прокариот.
Интересны сигналы транскрипционных факторов или других ДНК связывающих белков. С ними проблема найти материал обучения - промоторы генов, регулируемых одим ТФ. Можно узнать в БД или литературе через Pubmed.
В промоторах можно выбрать любой сигнал, найденный программой MEME. Проблема будет связать сигнал с конкретным белком, для которого сигнал. Решать её не обязательно.
Подсказок на эти варианты нет. Так что, соображать придётся больше))) Поэтому, не рекомендую.Но премиальные баллы за любые нестандартные ходы обещаю.)
Результат должен быть представлен на вашем сайте. Должен включать:
- Описание того, как и сколько выбрали входных последовательностей для MEME и ссылку на файл с ними.
- Описание найденных мотивов из выдачи MEME и какие выбрали
- Описание как и сколько выбрали входных последовательностей для FIMO
- Описание результата FIMO
- Короткое обсуждение результата, со ссылками на литературу, если нужно
Только ссылки на файл с выдачей программы MEME или FIMO (дескать, разбирайтесь сами) не принимаются!
Будьте добры, разберитесь с выдачей; выберите то, что нужно, и представьте в коротком отчёте на своём сайте.
Порядок действий
- Составить материал обучения и проверки: Совокупность промоторов генов вашей бактерии. Совокупность участков ДНК, не пересекающихся с промоторами - для отрицательного контроля.
Выбратьматериал обучения, вход для MEME. Размер выборки примерно 20 - 40 для основного варианта a. Для других вариантов, в которых нет надежды, что сигнал найдётся в каждой последовательности, можно увеличить материал обучения
- Выполнить поиск с помощью MEME. Если вы разрешили программе найти более одного сигнала, то вы выбираете один - наиболее соответствующий заданию - для дальнейшей проверки.
- Выполните поиск с помощью FIMO среди всех отобранных промоторов (положительный контроль, и в выборке для негативного контроля.
- Кратко обсудите полученные результаты.
a. 1) В промоторах генов в геноме одной бактерии найдите мотив одного сигнала
Бактерия (или архея) - ваша, та, с которой вы работали в предыдущих семестрах. Так вам же интереснее.
Предполагается, что найдёте сайт посадки сигма-субъединицы РНК-полимеразы. См. в лекции.
Материал обучения - тот, на котором будете искать сигнал и получать PWM этого сигнала - набор из 2х - 3х десятков промоторных участков, т.е. участков перед стартом транскрипции оперона. Оперон - транскрибируемый участок ДНК, содержащий несколько кодирующих последовательностей белков или одну. Подробнее см в указаниях.
Если найдёте другой сигнал, отличный от сайта посадки сигма-субъединицы, то тоже можно изучить. В промоторах генов может быть несколько сигналов - сайтов посадки транскрипционных факторов (ТФ). Однако один ТФ может регулировать транскрипцию многих мРНК, но далеко не всех. Поэтому, шанс, что найдёте такой сигнал в случайной выборке промоторов мал. Разве что из литературы узнаете, экспрессия каких генов регулируется одним и тем же транскрипционным фактором и их-то и возьмёте. Это можно сделать, и это приветствуется.
a.2) Проверка PWM
На тестовой выборке проверьте какие сигналы находит построенная PWM. Для тестирования следует к материалу обучения добавить промоторные участки, генов, не использованных в материале обучения. Другой вариант - выполнить поиск на большом участке хромосомы, или даже на всей, и посмотреть находятся ли сигналы в промоторных участках и и там, где их не должно быть (вероятные ошибки перепредсказания)
b.1) В геноме одной бактерии или археи найдите мотив сайта посадки рибосомы - последовательности Shine-Dalgarno
Можно выбрать любой геном, например, "свой" геном из первого семестра. См. подробнее в указаниях.
b.2) Проверка PWM
На тестовой выборке проверьте какие сигналы находит построенная PWM. Для тестирования следует к материалу обучения добавить участки перед первым кодоном кодирующей последовательности белка (CDS) для для белков, не использованных в материале обучения.