Учебная страница курса биоинформатики,
год поступления 2015
Задание 1. Построить профиль подсемейства и проверить его работу
См. указания
Средства: программы пакета HMMER 2.3.2 (установлен на kodomo).
- Выделите хорошее подсемейство из выравнивания и сохраните в отдельном файле
- Постройте и откалибруйте профиль
- Проведите поиск по всем белкам Uniprot, включающим ваш домен
- Отметьте среди находок представителей подсемейства
Задание 2. Обоснуйте выбор порога для профиля
- Постройте гистограмму весов находок
- Постройте ROC-кривую
- Предложите порог для нормализованного веса профиля и обоснуйте выбор
В отчете на сайте должно быть:
- Ссылка на файл с результатами поиска и колонкой с отметкой "правильных" находок (например, в Excel формате)
- ROC-кривая
Порог на E-value и табличка 2×2 с результатами при выбранном пороге вида:
На самом деле |
принадлежит подсемейству |
не принадлежит |
сумма |
Выше порога по профилю |
X |
Y |
X+Y |
Ниже порога |
U |
V |
U+V |
сумма |
X + U |
Y + V |
X + Y + U + V |
Чувствительность и специфичность профиля, их еще называют ошибками первого и второго рода (см. http://en.wikipedia.org/wiki/Precision_and_recall). Из четырех чисел ученые люди умудряются рассчитать 13 (тринадцать)!!! ОЧЕНЬ ВАЖНЫХ ПАРАМЕТРОВ))), см. ссылку. Если разберетесь в некоторых, то будете молодцом.
- Заключение о возможности использования профиля для выделения подсемейства
Дополнительное задание
Задание 3*. Найдите гомологов белка с помощью psi-BLAST
- Возьмите последовательность своего белка из I семестра или любого другого.
- Рекомендую так ограничить область поиска, чтобы находок было несколько десятков, максимум пара сотен, и время работы сервиса не было больше 15 мин.
Ограничьте поиск банком SwissProt
- Если находок мало, то ищите в Refseq proteins или измените Word size с 6-и на 3 или даже 2. Чем меньше длина слова, тем больше чувствительность, но и время работы больше :((
- Если находок много, то ограничьте поиск таксоном. Можно выбрать не тот таксон, из которого последовательность
Выполните несколько итераций - до стабилизации списка находок или пока не надоест
- Кратко опишите результат. Интересно: число "правильных" (отмеченных галочкой в выдаче psi-BLAST) находок после 1й итерации; E-value худшей правильной находки и лучшей неправильной; число выполненных итераций, достигнута ли стабилизация списка; те же данные для последней итерации; заключение про psi-BLAST; все, что сочтете интересным добавить.
UNDER CONSTRUCTION!