Учебная страница курса биоинформатики,
год поступления 2021
Практикум 6: задания
Отчёт по этому заданию выкладывается на сайт со ссылкой со страницы семестра. Срок без потери баллов — 31 марта 2023. Срок со штрафом 0,5 балла — 7 апреля 2021.
1. Кратко опишите один интересный сигнал, закодированный в геноме
В описании укажите:
- В чем состоит сигнал
- Кому адресован
- Предназначение - как должен реагировать адресат
- Эффективность сигнала:
- высокоэффективен если (почти) каждый раз адресат реагирует на сигнал
- низко эффективен если адресат не всегда реагирует на сигнал
- Любые использованные источники:
- может сталкивались в курсовой или других мол.-биол. активностях своих или знакомых
- литература и интернет
Что оценивается:
- понятность, логичность, простота и краткость описания;
- интересность, необычность сигнала или его кодировки.
2. Для одного из сигналов, заданного выравниванием нуклеотидных последовательностей, постройте PWM и оцените результаты поиска по этой PWM новых сайтов
Этапы
- Выберите тип сигнала из предлагаемых ниже или любой другой
- [Kozak]Окрестность ATG кодона - старта транскрипции в геноме человека
- [Kozak]Окрестность ATG кодона - старта транскрипции в геноме другого млекопитающего
- [SD] Последовательность Шайна-Далгарно перед стартом трансляции генов в геноме штамма E.coli
- [SD] Последовательность Шайна-Далгарно перед стартом трансляции генов в геноме бактерии другого вида
- [XXX] Любой другой тип сигнала, для которого можно набрать более десятка известных последовательностей
- [материал обучения] Составьте выравнивание (без гэпов) последовательностей сигнала для построения PWM.
- [материал тестирования]Соберите последовательности, в которых ожидается наличие сигнала
- [материал негативного контроля] Соберите последовательности, в которых не должно быть сигнала. Число последовательностей удобно взять равным числу последовательностей в п.3
- Постройте PWM на материале обучения.
- Вычислите веса для всех последовательностей из п.п. 2, 3 и 4.
- Выберите порог веса, выше которого находка считается правильной. Для этого постройте гистограммы весов из п.п. 2, 3 и 4.
- Представьте результат: PWM, гистограммы весов, таблицу 2х3 результатов проверки. Столбцов три соответствуют выборкам 2, 3, и 4. Строк две: сигнал(+), сигнал(-). В ячейке число последовательностей
- Напишите выводы
3. Вычислите информационное содержание сигнала из задания 2, и постройте Logo
На выходе нужно получить
- 1) матрицу информационного содержания IC(b,j) для выравнивания из материала обучения. См Лекцию. 2) LOGO можно построить используя сервис WebLOGO 3. Ссылка стоит в подсказках.
4. Посчитать число сайтов GAATTC в полном геноме одного штамма E.coli
Определите на сколько и в какую сторону оно отличается от ожидаемого по статистике, достоверно ли отличие.