Файл Excel со всеми расчётами, таблицами, графиками по данному практикуму.
Задание 1. Определить целевое семейство белков. Составить список белков семейства из `SwissProt`
Для работы я выбрала домен EF-hand. Ссылка на страницу в pfam. PF13405.
Я наложила дополнительные условия на семейство - белок должен быть у представителя семейства Muridae (Мышиные).
Запрос в Uniprot: database:(type:pfam id:PF13405) taxonomy:"Muridae [10066]" AND reviewed:yes
Находки приведены на листе 1 файла Excel, их 17.
Задание 2. Построение и откалибровка профиля
Из Uniprot я скачала fasta последовательности находок, затем сделала выравнивание в JalView. Ссылка на выравнивание.
Выравнивание последовательностей
С помощью программ на kodomo, получила из выравнивания профиль и откалибровала его.
hmm2build profile.txt align.fasta - построение профиля.
hmm2calibrate profile.txt - калибровка профиля.
Полученный профиль
Задание 3. Получение результатов поиска по профилю на множестве последовательностей SwissProt
На kodomo среди записей банка данных Swissprot были найдены последовательности, соответствующие построенному профилю.
По умолчанию отбираются находки с E-value < 10, до я добавила дополнительные параметры, чтобы находок было больше.
Порог E-value для доменов 1000 --domE 1000, порог для веса небольшой --domT -50.
Поиск по профилю: hmm2search --domE 1000 --domT -50 profile.txt /srv/databases/emboss/data/uniprot/uniprot_sprot.fasta > find.txt
Результат
Результат поиска приведён на листе 2 файла Excel.
Задание 4. Диаграмма, выбор порога нормализованного веса для находок по профилю
Найдём ступеньки нормализованного веса, построив диаграммы. Я построила 2: для всех находок и первых 100.
Ступенька на 16 находке, это вес 308. Возможный порог - 308.
Диаграмма весов для всех находок
Диаграмма весов для первых 100 находок
Задание 5. ROC-кривая, выбор порога нормализованного веса для находок по профилю
ROC-кривая (Receiver Operator Characteristic) - зависимость SE (sensitivity) от 1-SP (1-specificity). Далее некоторые определения: TP - свойство есть и оно выявлено, TN - свойства нет и оно не выявлено,
FP - свойства нет, но оно выявлено, FN - свойство есть, но оно не выявлено. Чувствительность SE (sensitivity) - это доля выявленного свойства, когда свойство есть.
Специфичность SP (specificity) - доля неправильно выявленного свойства, когда оно отстутствует. Формулы - SE = TP / (TP + FN), SP = TN / (TN + FP). Вычисления приведены в файле Excel.
ROC-кривая
Вывод: профиль средней точности для определения принадлежности белка к семейству. Судя по ROC-кривой оптимальный порог это около 178 - не совпадает с возможным порогом по диаграмме. Для него Sensitivity = 1, Specificity = 0,92, Precision = 0,27.
Видно, что точность невелика - 27%. Праивло для выявления белка искомого семейства: если вес >= порогу, то белок принадлежит семейству, если <, то гипотеза отвергается.
|