Учебная страница курса биоинформатики,
год поступления 2017
Для зачета студент должен получить зачет по каждой из 8 тем, т.е. правильно ответить по крайней мере на один вопрос по каждой теме
Темы и вопросы
1. Мотивы
- Обьясните термины: сигнал, мотив, сильный сигнал, слабый сигнал.
- Что такое консенсус и паттерн (применительно к мотиву в белке или ДНК)?
2. Информационное содержание выравнивания
- Мотивировка (зачем нужно понятие информационного содержания)
- Информационное содержание буквы в колонке, колонки выравнивания и выравнивания в целом (формулы)
- Максимальное и минимальное значение информационного содержания колонки
- Грубая оценка числа находок мотива, заданного выравниванием, в случайном банке
- Связь энтропии Шенона с информационным содержанием.
- Logo выравнивания
3. Позиционная весовая матрица (PWM)
- Отношение правдоподобия и его логарифм.
- Псевдоотсчёты (pseudocounts): что такое и зачем нужны?
- Как построить PWM по заданному выравниванию?
- Применение PWM для поиска мотивов. Вес выравнивания последовательности и позиционной весовой матрицы.
4. Технология поиска сигналов в ДНК
- Поиск сигналов в последовательностях при наличии обучающей выборки.
- Мотив известен. Что это означает и как найти этот мотив в данной последовательности?
- Основы Chip-seq эксперимента. Контроль в Chip-seq эксперименте.
- Основы eCLIP-seq эксперимента. Контроль.
- Как искать сигналы в результатах Chip-seq и eCLIP?
5. Pfam
- Объясните, что такое эволюционный домен белка и что такое его доменная архитектура.
- Что является единицей хранения в БД Pfam?
6. PSSM, PSI-BLAST
- Что такое PSSM
- Алгоритм PSI-BLAST
- Почему PSI-BLAST иногда позволяет найти достоверные гомологи, которые не находятся обычным BLAST?
7. Технология профилей
- Чем отличаются входные данные для построения HMM-профиля от входных данных для построения PWM?
- Как устроено решающее правило (принадлежит белок заданному семейству или нет), если семейство описано посредством профиля?
8. ROC-кривая
- Основные показатели качества решающего правила: TP, TN, FP, FN, TPR (син. recall, чувствительность), специфичность, FDR.
- По каким данным и как строится ROC?
- По каким данным и как определятеся PR-AUC? Зачем она нужна?