Kodomo

Пользователь

Учебная страница курса биоинформатики,
год поступления 2014

Инструкция по созданию репрезентативной выборки белков

Суть: проведите поиск BLAST по набору кластеризованных белков на сайте EBML EBI на уровне идентичности 50%. Подробное описание разных баз данных и параметров тут: (на англ.)

Последовательность шагов:

  1. Осуществляйте поиск по базе данных UniProt Clusters на уровне идентичности 50%

  2. Увеличьте число желаемых находок: по умолчанию там стоит 50 штук, выставьте, например, 200 (параметры SCORES и ALIGNMENTS)

  3. Получите результат поиска, запустите множественное выравнивание (Tools -> Lauch, и выберите желаемый алгоритм, советую Muscle, но выбор за вами). Сохраните результат.

  4. Добавьте к множественному выравниванию последовательность вашего исходного белка из PDB (мне приходит в голову только следующее: удалить из выравнивания вставленные программой гэпы, добавить ваш белок и перевыровнять).
  5. (*) Задание за дополнительные баллы. Проанализируйте, удалось ли получить репрезентативную выборку белков. Для этого:

    • Проведите поиск с числом находок 1000.
    • Выберите вкладку Result Summary и скачайте файл под заголовком Tabular (это выдача BLAST под опцией -outfmt 6 в командной строке).

    • Откройте файл в Excel (табуляция в качестве разделителя).
    • Найдите колонку с e-value; для величин равных нулю выставите значение 1e-200.

    • В отдельной колонке вычислите -lg(e-value).

    • Постройте график зависимости этой величины от номера хита (должна получиться убывающая функция).
    • Любым способом отметьте на графике то место, которое соответствует номеру хита, на котором обрывалась ваша выборка (например, 200).
    • Приведите в отчете рисунок и комментарий к нему: разумно ли было проводить такую выборку или нет.