Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2019

Задания по материалу дополнительной лекции

1. Исследование зависимости списка находок от параметров BLAST

Проведите исследование зависимости числа "хороших" находок (пусть это будут находки с E-value < 0,001) от параметров. Можно исследовать параметры:

Примерный дизайн исследования:

2. Исследование корректности вычисления E-value

Проиндексируйте под BLAST какой-нибудь протеом. Теперь запустите по нему blastp много (минимум 100, а лучше 1000) раз, давая в качестве запроса случайные последовательности. Для разных порогов на E-value (скажем, 0.25, 0.5, 1, 2, 4 и 8) посчитайте среднее число находок с E-value ниже этого порога. Сравните с самими порогами и сделайте выводы.

Смысл исследования в том, что принятый в BLAST метод вычисления E-value основан на предположении, что банк тоже состоит из случайных последовательностей с независимым появлением букв (иногда такие последовательности называются бернуллиевскими). Между тем реальные банки не бернуллиевские и к тому же обладают внутренней структурой (гомологичные белки). Вопрос: насколько это искажает реальное матожидание числа случайных находок?

Советы: