Учебная страница курса биоинформатики,
год поступления 2014
Здесь приведены все задания блока 3.
Задание 1. Сравнить состав систем рестрикции-модификации, закодированных в двух штаммах одного вида
И.Русинов
Материал:
- Геном из БД NCBI
- Фрагменты генома из метагенома кишечника человека
Метод: Существование системы рестрикции-модификации предсказывается по ее следам в геноме: недопредставленности сайтов рестрикции.
Системы рестрикции-модификации (Р-М) - это один из механизмов защиты прокариот от чужеродной ДНК, например, бактериофагов. Система Р-М умеет распознавать определенные короткие последовательности ДНК (сайты рестрикции) и гидролизовать ДНК, если эти последовательности не метилированы. В ДНК клетки все сайты рестрикции заметилированы, а в ДНК фагов - нет. Поэтому клеточная ДНК остается невредимой, а ДНК фагов гидролизуется. Но иногда в процессе метилирования сайтов рестрикции случаются ошибки и геном бактерии может быть гидролизован. Из-за этого бактерии выгодно содержать в геноме как можно меньше сайтов узнавания систем Р-М, чтобы уменьшить вероятность случайного гидролиза.
Отбор против сайтов в геноме можно обнаружить, сравнив наблюдаемое число сайтов с ожидаемым числом. Например, можно вычислить отношение наблюдаемое/ожидаемое число сайтов (контраст), и если это отношение меньше 1, значит встретилось меньше сайтов, чем ожидалось. Обнаружив такие "избегаемые" сайты можно предсказать, какие системы Р-М бактерия содержит (или содержала в недавнем прошлом).
Бактерии достаточно быстро меняют набор систем Р-М. Поэтому даже бактерии (или археи) одного вида могут содержать разный набор систем Р-М в разных популяциях.
Ваша задача - сравнить предполагаемые (по избеганию сайтов) наборы систем Р-М в полном геноме бактерии из NCBI и наборе контигов того же вида из метагенома кишечника человека.
Этап 1. Найдите избегаемые сайты рестрикции в геноме выданной бактерии или археи
Все файлы и папки, указанные ниже, располагаются на диске P: в папке y14/term4/pr10
Здесь можно посмотреть, кому какая бактерия досталась.
Файл sites.list содержит список всех (ну почти ) известных сайтов систем Р-М типа II (основной тип). Вам нужно:
посчитать ожидаемое количество и контраст всех сайтов из списка в геноме вашей бактерии. Последовательность генома лежит в папке chr_fasta. Это можно сделать с помощью веб-сервиса. Вам нужно использовать метод Карлина.
- найти все сайты, для которых контраст меньше чем 0.78 (это порог, чтобы отличие от 1 можно было считать значительным).
- в отчете надо привести выходной файл веб-сервиса, файл с отобранными избегаемыми сайтами, и указать их количество.
Этап 2. Найдите избегаемые сайты рестрикции в наборе контигов из метагенома
Последовательности контигов в fasta формате (сжатые с помощью gzip) лежат в папке wgs_fasta. Вам нужно сделать все то же самое, что и в предыдущем пункте, но для последовательностей контигов.
Этап 3. Сравните полученные списки избегаемых сайтов
Укажите в отчете, сколько избегаемых сайтов найдено только в полном геноме, сколько - только в контигах, и сколько и там и там. Сделайте вывод о том, какая из бактерий (архей) содержала больше систем Р-М, и возможные причины этого, учитывая, что организмы очень близкие, и что один из них жил в кишечнике человека. Где жил второй (полный геном) можете попробовать узнать на сайте NCBI в соответствующей записи базы данных Nucleotide.
Задание 2. Найдите последовательности Шайн – Дальгарно в геноме бактерии или археи, данном вам в первом семестре.
ААл
Результат должен быть представлен на сайте. Должен включать:
Построенный вами профиль (PWM) для последовательности Шайн – Дальгарно (ШД) в вашем геноме
Список кодирующих последовательностей, перед которыми предсказывается Шайн – Дальгарно, найденный сигнал с указанием числа нуклеотидов между ШД и 1м кодирующим нуклеотидом (выходной файл FIMO в формате Excel с добавленным расстоянием до старта трансляции).
- Гистограмму расстояний до старта трансляции
Лого найденных сигналов (сервис LOGO, на вход можно подать последовательности в plain format).
- Процент генов белков, перед которыми найден ШД.
- Данные из литературы или из БД о ШД в вашем геноме. Ссылки обязательны! Если ничего не смогли разыскать, то опишите как искали.
- Короткое обсуждение результата
Ссылки на выдачу программы не принимаются!
Будьте добры, разберитесь с выдачей; выберите то, что нужно, и представьте в отчете на своем сайте.
Указания
Подготовка данных
Найдите свою бактерию в БД Assembly на NCBI, перейдите на страницу последовательности в GeneBank
Скачайте fasta файл с хромосомой ("send" => "Complete record", "File", "Fasta")
Скачайте особенности (features), среди них есть CDSs ("send" => "Complete record", "File", "Feature Table")
Преобразуйте файл с Features в .xls формат с координатами кодирующих последовательностей. Используйте мой скрипт features2CDSs.py Мои скрипты выдают инфо при запуске без параметров; при запуск с опцией -h выдается список параметров программы.
- Выберите несколько сот "хороших" кодирующих последовательностей. "Хорошая" значит есть надежда, что ген хорошо аннотирован: не гипотетический, достаточно длинный (скажем, более 300 п.н.). Указанные числа CDSs условны.
- Прочитайте что-нибудь про Ш-Д для того, чтобы разумно спланировать поиск мотива.
- Литературу ищите с помощью google и в Pubmed
- Для отобранных генов создайте список областей, в которых имеет смысл искать ШД. Помните, что сигнал слабый, поэтому стоит сузить область поиска, но так, чтобы не пропустить много настоящих ШД! Для этого и надо прочитать про ШД. Нужен файл формата:
мин_координата |
макс_координата |
ориентация |
ID_фрагмента |
остальное |
В качестве ID_фрагмента можно оставить AС гена; остальное – product. Такой файл можно сделать в Excel.
Создайте fasta файл с областями поиска. Используйте мое скрипт fragments2fasta.py. Его запускать на kodomo, т.к. использует bash и EMBOSS команду seqret.
- Не перепутайте с указанием области поиска перед геном, расположенным на противоположной цепи!
Так же сделайте файл с областями поиска для всех генов. Границы по отношению к старту трансляции можно немножко расширить.
Пакет программ для поиска мотива, построения PWM, и поиска по PWM доступен на сайте MEME suit. Также эти программы установлены на kodomo.
Поиск мотива; создание PWM
Используйте MEME для поиска мотива de novo в созданном fasta файле с областями поиска
- Вдумчиво выбирайте параметры
- число находок мотива в каждой последовательности
- число лучших мотивов на выходе; нужен один, но первый раз можно поставить два - чтобы сравнить E-value
- длина мотива: от - до (в Advanced)
- число сайтов, т.е. находок; ограничьте немного исходя из ваших знаний того, какой процент генов имеет ШД
- на двух ли цепочках искать
- Наверное, придется запускать MEME несколько раз с разными параметрами чтобы добиться правдоподобного результата
- Добившись его, сохраните нужный данные для отчета. PWM найдете в текстовой выдаче MEME
Поиск ШД во всем геноме с помощью PWM, построенной MEME
- Используйте FIMO (а не MAST)
- Со страницы с результатом MEME можно перейти на другие программы, в т.ч. FIMO. При этом матрицы PWM, построенная MEME, автоматом передается на вход FIMO.
- Перейдите на FIMO и загрузите fasta файл c областями поиска перед всеми CDS.
- Откройте Advanced options; можно порог p-value сделать побольше.
- Сохраните результат поиска - таблицу - в текстовом виде и откройте в Excel. Он и будет результатом выполнения задания.
(*) Дополнительное задание. Опишите дополнительные возможности сервиса MEME suit или доступного по ссылке
ААл
- Достаточно описать одну из возможностей, конечно. Сервис покрутел за время, что я не заходил на него.
- Описывайте так, чтобы ваш текст был понятен студентам студенты следующих (и прежних) поколений
- Обязателен пример использования сервиса
- Можно разбираться в сервисе и описывать его вдвоем, с указанием вкладов
- Хорошие описания будут открыты на kodomo wiki, с вашего согласия
Задание 3. Определите сайты связывания данного транскрипционного фактора в данном участке хромосомы человека
Д.Бредихин
Файлы .fastq с ридами Illumina, полученные в результате сhip-seq эксперимента, разделены на отдельные файлы, соответствующие участкам хромосом. Они лежат в директории /srv/databases/ngs/chipseq_y14 на диске P. Соответствие между студентами и файлами см. здесь
Для работы используйте свои поддиректории в директории ngs, заведенные в прошлом семестре. Предварительно удалите из них старые файлы.
Задание 4. В геноме человека найдите три гена, транскрипция которых инициируется с помощью TATA-бокс связывающего белка, и один - без сигнала TATA-бокса в промоторной области
ААл
TATA-бокс связывающий фактор TBP - архейный и эукариотический белок, узнающий восьминуклеотидный сигнал в ДНК с консенсусом TATAWAAR(Faiger et al., 2005).
Он является одним из ключевых ДНК-узнающих белков при образовании на промоторе генов комплекса TFIID инициации транскрипции с помощью Pol II(Lauder et al., 2016). Тем не менее, лишь часть промоторов имеет сигнал TATA-box, связываемый TBP.
См. литературу также на диске P: в директории семестра.
Отчет должен включать:
- для каждого гена
- название
- координату старта транскрипции (хромосома, позиция, ориентация гена); длину гена (от старта транскрипции до конца мРНК, включая все интроны и некодирующие участки мРНК)
- два изображения: (i) в мелком масштабе, так, чтобы были видны соседние сигналы; (ii) промоторная область в крупном масштабе с последовательностью нуклеотидов; следите, чтобы изображения не включали лишних треков, только ген Refseq, сигнал (-ы) и пик (-и), EST для подтверждения транскрибируемости
- наличие и координата относительно старта транскрипции консенсусной последовательности TATA-бокса в промоторной области
- Обсуждение результата
Указания.
Используйте данные chip-seq для указанного белка и возможности Genome Browser UCSC. Удобный доступ - через сайт SYDH TFBS Track Settings.
- Выберите нужный транскрипционный фактор (TBP) и какой-либо эксперимент. Не забудьте сначала отключить все галочки, стоящие по умолчанию!
- Найдите и сохраните описание эксперимента: биол.образец, антитело, - и описание транскрипционного фактора.
- Выберите изображение и сигналов, и пиков, submit. Окажетесь в броузере генома в случайном месте
- Настройте изображение. Надо научиться:
Убирать и добавлять треки – полоски с определенными данным, привязанными к хромосоме
- Менять масштаб изображения от целой хромосомы до последовательности нуклеотидов
- Показывать участок по координатам в геноме, находить гены по названию. Сдвигаться направо и налево.
- Показывать гены (предлагаю использовать Refseq genes в качестве первого выбора), мРНК и EST
- Передвигать треки вверх и вниз
Если трек сигнала рисует полоску вместо графика покрытия нуклеотидов – щелкните по нему!
- Трек с сигналом настройте так, чтобы автоматически вписывать график в окошко (используйте правую кнопку мыши, в меню выберите настройку трека ... и в нем ... auto). При такой настройке указывается минимальное и максимальное значение графика в окне)
- Настроенное изображение должно содержать треки: ген Refseq, EST, сигнал TBP в районе начала гена или демонстрировать его отсутствие; пики того же сигнала; пики детектиркются на основании отношения сигнала к контролю.
Используйте UCSC GenomeBrowser => ENCODE => Experiment Matrix => chi-seq Experiment Matrix
- Выберите нужный транскрипционный фактор (TBP) и какой-либо эксперимент. Найдите описание эксперимента: биол.образец, антитело.
- Выберите search for tracks (а не file), Submit, оказываетесь на странице результатов поиска нужного белка в нужном биологическом образце
- Выберите один трек с Signals, если их несколько; view in browser
- Оказываетесь в случайном месте генома человека, изображенном многочисленными треками.
Задание 5*. Коротко опишите один из сервисов или одну из баз данных из списка
Список будет предложен позже
Указания
После проверки и исправления ошибок предполагается открыть ваше описание на kodomo wiki. Для этого создан раздел "Поиск сигналов"
EDP и EDPnew – эукариотические подтвержденные промоторы
PePPER – прокариотические промоторы
WebGeSTer – поиск Rho-независимых терминаторов прокариот
FindTerm – поиск Rho-независимых терминаторов прокариот
Gibbs Motif Sampler (http://ccmbweb.ccv.brown.edu/gibbs/gibbs.html)
RegPrecise – коллекция транскрипционных факторов, сайтов и регулонов прокариот
RegPredict – сервисы для поиска (регуляторных) сигналов в геномах прокариот
EcoCyc - ...