Учебная страница курса биоинформатики,
год поступления 2019

Задания по материалу дополнительной лекции

1. Исследование зависимости списка находок от параметров BLAST

Проведите исследование зависимости числа "хороших" находок (пусть это будут находки с E-value < 0,001) от параметров. Можно исследовать параметры:

Примерный дизайн исследования:

2. Исследование корректности вычисления E-value

Проиндексируйте под BLAST какой-нибудь протеом. Теперь запустите по нему blastp много (минимум 100, а лучше 1000) раз, давая в качестве запроса случайные последовательности. Для разных порогов на E-value (скажем, 0.25, 0.5, 1, 2, 4 и 8) посчитайте среднее число находок с E-value ниже этого порога. Сравните с самими порогами и сделайте выводы.

Смысл исследования в том, что принятый в BLAST метод вычисления E-value основан на предположении, что банк тоже состоит из случайных последовательностей с независимым появлением букв (иногда такие последовательности называются бернуллиевскими). Между тем реальные банки не бернуллиевские и к тому же обладают внутренней структурой (гомологичные белки). Вопрос: насколько это искажает реальное матожидание числа случайных находок?

Советы: