Учебная страница курса биоинформатики,
год поступления 2014
Инструкция по созданию репрезентативной выборки белков
Суть: проведите поиск BLAST по набору кластеризованных белков на сайте EBML EBI на уровне идентичности 50%. Подробное описание разных баз данных и параметров тут: (на англ.)
Последовательность шагов:
Осуществляйте поиск по базе данных UniProt Clusters на уровне идентичности 50%
Увеличьте число желаемых находок: по умолчанию там стоит 50 штук, выставьте, например, 200 (параметры SCORES и ALIGNMENTS)
Получите результат поиска, запустите множественное выравнивание (Tools -> Lauch, и выберите желаемый алгоритм, советую Muscle, но выбор за вами). Сохраните результат.
- Добавьте к множественному выравниванию последовательность вашего исходного белка из PDB (мне приходит в голову только следующее: удалить из выравнивания вставленные программой гэпы, добавить ваш белок и перевыровнять).
(*) Задание за дополнительные баллы. Проанализируйте, удалось ли получить репрезентативную выборку белков. Для этого:
- Проведите поиск с числом находок 1000.
Выберите вкладку Result Summary и скачайте файл под заголовком Tabular (это выдача BLAST под опцией -outfmt 6 в командной строке).
- Откройте файл в Excel (табуляция в качестве разделителя).
Найдите колонку с e-value; для величин равных нулю выставите значение 1e-200.
В отдельной колонке вычислите -lg(e-value).
- Постройте график зависимости этой величины от номера хита (должна получиться убывающая функция).
- Любым способом отметьте на графике то место, которое соответствует номеру хита, на котором обрывалась ваша выборка (например, 200).
- Приведите в отчете рисунок и комментарий к нему: разумно ли было проводить такую выборку или нет.