Простейший профиль: частотная матрица.

  1. Был создан файл, содержащий тот участок выравнивания рибосомальных белков из выбранного таксона Bacillales, по которому строился паттерн на прошлом задании.
  2. В выходном файле программы prophecy представлена частотная матрица и консенсус. На вход ему подается участок выравнивания, по которому строился паттерн в формате msf.
  3. Программа profit производит сравнение последовательностей с частотной матрицей и записывает в выходной файл все совпадения. Выходной файл включает название всех находок, начало совпадения в данной последовательности и процент от максимальной характеристики. Выходной файл - результат работы программы profit. Всего находок - 370861.
    Счет больше 60 имеют 655 последовательности.
    Больше 50 - 1188.
    Больше 40 - 16413.


  4. Таблица с посторением roc-кривой. Я работала с порогом 40.
    ROC-кривая - это зависимость FP при всевозможных (в некотором диапазоне) порогах от TP.
    Для построения данной кривой я сначала посчитала, сколько белков моего подсемейства нашлось по профилю.
    На листе 5 файла находится список белков подсемейства.
    Верных находок профиля - 25, ложных - 15741.
    Число ненайденных белков подсемейства - 14.
    Чувствительность профиля - 0,64.
    Селективность - 0,0015.
    Селективность пaттерна выше селективности профиля. Селективности равны при пороге 85 (сама селективность равна 0,38). Чувствительность профиля в этом случае равна 0,64, а чувствительность моего паттерна была равна 0,59.
    Тем не менее, паттерн получился все же лучше, потому что он находит меньшь лишних белков.

©