Учебная страница курса биоинформатики,
год поступления 2015
Темы и вопросы
1. Мотивы
- Обьясните термины: сигнал, мотив, сильный сигнал, слабый сигнал.
- Что такое консенсус и паттерн (применительно к мотиву в белке или ДНК).
2. Информационное содержание выравнивания
- Мотивировка (зачем нужно понятие информационного содержания)
- Информационное содержание буквы в колонке, колонки выравнивания и выравнивания в целом (формулы)
- Максимальное и минимальное значение информационного содержания колонки
- Грубая оценка числа находок мотива, заданного выравниванием, в случайном банке
- Logo выравнивания
3. Позиционная весовая матрица (PWM)
- Отношение правдоподобия и его логарифм.
- Псевдоотсчёты (pseudocounts): что такое и зачем нужны?
- Как построить PWM по заданному выравниванию?
- Применение PWM для поиска мотивов. Вес выравнивания последовательности и позиционной весовой матрицы.
4. Технология поиска сигналов в ДНК
- Поиск сигналов в последовательностях при наличии обучающей выборки.
Поиск мотивов de novo. MEME: что на входе, что на выходе.
- Алгоритм MEME (основные идеи)
- Поиск известного мотива в последовательностях (FIMO или MAST).
- Почему невозможно искать мотивы транскрипционных факторов в полных геномах "автоматически" (например, используя только FIMO)?
- Основы Chip-seq эксперимента. Контроль в Chip-seq эксперименте
- Как искать сигналы в результатах Chip-seq
5. Pfam
- Объясните, что такое эволюционный домен белка и что такое его доменная архитектура.
- Что является единицей хранения в БД Pfam?
6. Технология профилей
- Чем отличаются входные данные для построения HMM-профиля от входных данных для построения PWM?
- Что такое калибровка профиля и зачем она нужна?
- Как устроено решающее правило (принадлежит белок заданному семейству или нет), если семейство описано посредством профиля?
7. ROC-кривая
- Основные показатели качества решающего правила: TP, TN, FP, FN, TPR (син. recall, чувствительность), специфичность, FDR.
- По каким данным и как строится ROC?