Учебная страница курса биоинформатики,
год поступления 2020
Задача a. - авантюрная. Сам не выполнял её ни разу. По литературе, знаю, что нахождение in silico промоторов - сайтов посадки сигма субъединицы РНК полимеразы - сложная задача. Успех не гарантирован. Зато интересно попробовать свои силы. Если выберете эту задачу, и будете делать всё добросовестно, то зачту, даже если найденный вами сигнал будет другим, или вообще результат - отрицательный, никакого сигнала не удалось найти.
Задачи b. и с. проверены предыдущими поколениями студентов. Тоже - творческие.
В связи с поздним завершением Указаний, deadline отодвигаю. Посмотрю на сколько - в зависимости от трудоёмкости заданий 3го и 4го практикумов блока Сигналы. До коллоквиума - 5е задание, конечно все обязательные задания должны быть завершены.
Успехов!
ААл
Для одной из задач a., b., или c.: 1) найти мотив указанного сигнала с помощью программы или сервиса MEME и 2) проверить его работу с помощью программы или сервиса FIMO
Задачу (a., b. или c.) выбираете самостоятельно.
Результат должен быть представлен на сайте. Должен включать:
- Описание выбора входных последовательностей для MEME и ссылку на файл с ними.
- Ссылку на позиционную весовую матрицу (PWM)
- Описание найденных мотивов из выдачи MEME
- Описание входных последовательностей для FIMO
- Описание результата FIMO
- Короткое обсуждение результата, со ссылками на литературу, если нужно
В каждой задаче выделяется материал обучения - те последовательности, в которых с помощью MEME находятся сигналы и вычисляется позиционная весовая матрицы PWM для каждого сигнала. Если вы разрешили программе найти более одного сигнала, то вы выбираете один - наиболее соответствующий заданию - для дальнейшей проверки.
Также выделяется материал для тестирования с помощью FIMO того, насколько пригодна PWM для решения задачи поиска выбранного сигнала в новых последовательностях. В задачах a. и b. для тестирования можно выбрать множество последовательностей, не пересекающееся с материалом обучения. В задаче c. для тестирования предлагается провести поиск по PWM в полном геноме вируса. Во всяком случае, будет проверено не даёт ли поиск по PWM очевидные ошибки - ложные предсказания - в тех местах, в которых искомый сигнал не может быть; и подтверждает ли FIMO результаты MEME - представителей сигнала, найденных MEME для вычисления PWM.
Только ссылки на файл с выдачей программы MEME или FIMO (дескать, разбирайтесь сами) не принимаются!
Будьте добры, разберитесь с выдачей; выберите то, что нужно, и представьте в коротком отчёте на своём сайте.
a. 1) В промоторах генов в геноме одной бактерии найдите мотив одного сигнала
Бактерия (или архея) - ваша, та, с которой вы работали в предыдущих семестрах. Так вам же интереснее.
Предполагается, что найдёте сайт посадки сигма-субъединицы РНК-полимеразы. См. в лекции.
Материал обучения - тот, на котором будете искать сигнал и получать PWM этого сигнала - набор из 2х - 3х десятков промоторных участков, т.е. участков перед стартом транскрипции оперона. Оперон - транскрибируемый участок ДНК, содержащий несколько кодирующих последовательностей белков или одну. Подробнее см в указаниях.
Если найдёте другой сигнал, отличный от сайта посадки сигма-субъединицы, то тоже можно изучить. В промоторах генов может быть несколько сигналов - сайтов посадки транскрипционных факторов (ТФ). Однако один ТФ может регулировать транскрипцию многих мРНК, но далеко не всех. Поэтому, шанс, что найдёте такой сигнал в случайной выборке промоторов мал. Разве что из литературы узнаете, экспрессия каких генов регулируется одним и тем же транскрипционным фактором и их-то и возьмёте. Это можно сделать, и это приветствуется.
a.2) Проверка PWM
На тестовой выборке проверьте какие сигналы находит построенная PWM. Для тестирования следует к материалу обучения добавить промоторные участки, генов, не использованных в материале обучения. Другой вариант - выполнить поиск на большом участке хромосомы, или даже на всей, и посмотреть находятся ли сигналы в промоторных участках и и там, где их не должно быть (вероятные ошибки перепредсказания)
b.1) В геноме одной бактерии или археи найдите мотив сайта посадки рибосомы - последовательности Shine-Dalgarno
Можно выбрать любой геном, например, "свой" геном из первого семестра. См. подробнее в указаниях.
b.2) Проверка PWM
На тестовой выборке проверьте какие сигналы находит построенная PWM. Для тестирования следует к материалу обучения добавить участки перед первым кодоном кодирующей последовательности белка (CDS) для для белков, не использованных в материале обучения.
c.1) В геноме одного из коронавирусов (Coronaviridae) найдите мотив сайта разрывной транскрипции sgRNA
Пояснение. sgRNA - субгеномная матричная РНК коронавирусов (Coronaviridae) и других (но не всех) нидовирусов (Nidovirales). Она образуется путем объединения участка с геном позднего белка с лидерной последовательностью при образовании -РНК (т.е. РНК, комплементарной к РНК вируса, являющейся +РНК) с последующей репликацией полученной (-sgRNA)в +sgRNA. Эта sgRNA опознаются факторами белками хозяйской клетки, как матричная РНК.
Читайте презентацию и статью, указанную в ней.
В идеале должен найтись сигнал в лидерной последовательности, называемый TRS-L (TRS от Transcription-Regulating Sequence) и сигналы TRS-B перед кодирующей последовательностью каждого позднего гена. Координаты всех поздних генов найдёте в соответствующей записи с геномом в формате Genbank. Все сигналы TRS-B и TRS-L включают одинаковую последовательностью из шести нуклеотидов (различие в одном нуклеотиде, может и двух, не исключены - это биология). Последовательность называется CS (от Core Sequence). В статье она приведена для того коронавируса, который изучали авторы. Сигналы TRS шире CS на несколько (неизвестно сколько) нуклеотидов с 5' и 3' стороны. Если найдёте только сигналы CS, этого будет достаточно.
Выбор коронавируса На странице Genome NCBI (https://www.ncbi.nlm.nih.gov/genome/browse#!/overview/) в окошке напишите Coronaviridae. В списке Из списка выбирайте любой, проверив что геном полный: в какой-то колонке должен быть полностью чёрный кружок.
c.2) Проверка PWM
Для тестирования возьмите полный геном вируса, с которым вы работали. Если найдёте все сигналы и ни одного лишнего - то значит всё хорошо.