Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2016

Для зачета студент должен получить зачет по каждой из 8 тем, т.е. правильно ответить по крайней мере на один вопрос по каждой теме

Темы и вопросы

1. Мотивы

  1. Обьясните термины: сигнал, мотив, сильный сигнал, слабый сигнал.
  2. Что такое консенсус и паттерн (применительно к мотиву в белке или ДНК)?
  3. Что содержит банк PROSITE?

2. Информационное содержание выравнивания

  1. Мотивировка (зачем нужно понятие информационного содержания)
  2. Информационное содержание буквы в колонке, колонки выравнивания и выравнивания в целом (формулы)
  3. Максимальное и минимальное значение информационного содержания колонки
  4. Грубая оценка числа находок мотива, заданного выравниванием, в случайном банке
  5. Logo выравнивания

3. Позиционная весовая матрица (PWM)

  1. Отношение правдоподобия и его логарифм.
  2. Псевдоотсчёты (pseudocounts): что такое и зачем нужны?
  3. Как построить PWM по заданному выравниванию?
  4. Применение PWM для поиска мотивов. Вес выравнивания последовательности и позиционной весовой матрицы.

4. Технология поиска сигналов в ДНК

  1. Поиск сигналов в последовательностях при наличии обучающей выборки.
  2. Поиск мотивов de novo. MEME: что на входе, что на выходе.

  3. Алгоритм MEME (основные идеи)
  4. Мотив известен. Что это означает и как найти этот мотив в данной последовательности?
  5. Почему невозможно искать мотивы связывания транскрипционных факторов в полных геномах "автоматически"?
  6. Основы Chip-seq эксперимента. Контроль в Chip-seq эксперименте.
  7. Как искать сигналы в результатах Chip-seq?

5. Pfam

  1. Объясните, что такое эволюционный домен белка и что такое его доменная архитектура.
  2. Что является единицей хранения в БД Pfam?

6. PSSM, PSI-BLAST

  1. Что такое PSSM
  2. Алгоритм PSI-BLAST
  3. Почему PSI-BLAST иногда позволяет найти достоверные гомологи, которые не находятся обычным BLAST?

7. Технология профилей

  1. Чем отличаются входные данные для построения HMM-профиля от входных данных для построения PWM?
  2. Что такое калибровка профиля и зачем она нужна?
  3. Как устроено решающее правило (принадлежит белок заданному семейству или нет), если семейство описано посредством профиля?

8. ROC-кривая

  1. Основные показатели качества решающего правила: TP, TN, FP, FN, TPR (син. recall, чувствительность), специфичность, FDR.
  2. По каким данным и как строится ROC?
  3. По каким данным и как определятеся PR-AUC? Зачем она нужна?