Четвертый семестр

Простейший профиль: частотная матрица

  1. Построение частотной матрицы (профиля) по участку выравнивания программой prophecy
  2. 1. Создал файл содержащий только тот участок, по которому производилось построение паттерна - part.msf.
    2. При помощи программы prophecy был получен выходной файл part.prophesy. Данный файл содержит: частотную матрицу. консенсус.
  3. Поиск участков в бактериальных белках из Swiss-Prot, дающих счёт выше 30 при сравнении с созданным мной профилем
  4. Программа profit производит сравнение одной или большего числа последовательностей с частотной матрицей и записывает в выходной файл любые совпадения, с более высокими показателями. Выходной файл включает название всех находок, начало совпадения в данной последовательности и процент от максимальной характеристики.
    part.profit - результат работы программы profit.
    Всего было найдено 70674 последовательностей.
    Находок c параметром >=70 - 158
    Находок c параметром >=60 - 481
    Находок c параметром >=50 - 686
    Находок c параметром >=40 - 2063
  5. Сравнение полученного списка со списком всех белков подсемейства
  6. Число верных находок ("True positive hits", TP)=136 Число ложных находок ("False positive hits", FP)=70538 Число ненайденных белков подсемейства (ложноотрицательных результатов, "False negatives", FN)=0 Чувствительность TP/(TP+FN)=1 Селективность TP/(TP+FP)=0,0019
    Ниже приведена ROC-кривая:

    Чтобы селективность была ~94% нужно взять порог 77%.
    Чувствительность паттерна, созданного мной, равна 94,11%; чувствительность профиля 100%.
    ©Анисенко Андрей