Простейший профиль: частотная матрица.
- Был создан файл, содержащий тот участок выравнивания рибосомальных белков из выбранного таксона Bacillales, по которому строился паттерн на прошлом задании.
- В выходном файле программы prophecy представлена частотная матрица и консенсус. На вход ему подается участок выравнивания, по которому строился паттерн в формате msf.
- Программа profit производит сравнение последовательностей с частотной матрицей и записывает в выходной файл все совпадения. Выходной файл включает название всех находок, начало совпадения в данной последовательности и процент от максимальной характеристики.
Выходной файл - результат работы программы profit. Всего находок - 370861.
Счет больше 60 имеют 655 последовательности.
Больше 50 - 1188.
Больше 40 - 16413.
Таблица с посторением roc-кривой. Я работала с порогом 40.
ROC-кривая - это зависимость FP при всевозможных (в некотором диапазоне) порогах от TP.
Для построения данной кривой я сначала посчитала, сколько белков моего подсемейства нашлось по профилю.
На листе 5 файла находится список белков подсемейства.
Верных находок профиля - 25, ложных - 15741.
Число ненайденных белков подсемейства - 14.
Чувствительность профиля - 0,64.
Селективность - 0,0015.
Селективность пaттерна выше селективности профиля. Селективности равны при пороге 85 (сама селективность равна 0,38). Чувствительность профиля в этом случае равна 0,64, а чувствительность моего паттерна была равна 0,59.
Тем не менее, паттерн получился все же лучше, потому что он находит меньшь лишних белков.
©