Занятие 11: Профили
< Часть втораяПостроение профиля pftools домена по выравниванию
Выравнивание cyclin_n.msf было использовано для построения профиля pftools. С помощью следующих команд были добавлены в выравнивание веса последовательностей (для этого была применена программа pfw) и создан профиль (команда pfmake строит профиль PROSITE на основании множественного выравнивания):
pfw cyclin_n.msf > cyclin_n_weighted.msf
pfmake cyclin_n_weighted.msf /usr/share/pftools23/blosum62.cmp > cyclin_n.prf
Нормализация профиля cyclin_n.prf может быть выполнена с использованием банка случайных последовательностей:
pfsearch –C 10 –f cyclin_n.prf sprot_shuffled.fasta | sort -nr > cyclin_n_scores.txt
pfscale cyclin_n_scores.txt cyclin_n.prf > cyclin_n_scaled.prf
Поиск представителей в банке SwissProt
Для поиска по банку SwissProt был использован нормализованный профиль cyclin_n_scaled.prf, при этом порог нормализованного веса был установлен равным 1.0:
pfsearch –C 1.0 –f cyclin_n_scaled.prf sprot.fasta | sort -nr > cyclin_n_scaled_sp.xls
Так как с порогом 1.0 находок очень много (498671), то можно повысить используемый порог, однако, например, при пороге 5.5 находится 485193 последовательности. Поэтому далее для поиска по банку SwissProt был подобран порог нормализованного веса для программы pfsearch, равный 400, при поиске в банке последовательностей SwissProt:
pfsearch -C 400.0 -f cyclin_n_scaled.prf sprot.fasta | sort -nr > cyclin_n_scaled_sp_400.xls
В полученном файле cyclin_n_scaled_sp_400.xls содержится 621 последовательность, что достаточно для дальнейшего построения графика весов находок и ROC-кривой.
Для того, чтобы выделить из полученного списка последовательностей те, которые содержат домен Cyclin_N по аннотации SwissProt, был написан и запущен скрипт check_if_cyclin_n.py, при работе которого также используется файл с информацией об архитектуре последовательностей (был получен в ходе одного из предыдущих занятий). Полученный файл был импортирован в Excel для дальнейшей работы.
Работа со списком находок
В файле cyclin_n_profiles.xlsx были отмечены последовательности, для которых имеется домен Cyclin_N согласно Pfam. Средствами Excel для полученного списка находок был построен график нормализованного веса находок, «ступеньку» на котором можно интерпретировать как порог нормализованного веса для находок из семейства (в данном случае равен 400):
ROC-кривая представляет собой зависимость чувствительности алгоритма классификации (т. е. true positive rate, TPR) от величины FPR (false positive rate), которую можно обозначить как 1 – специфичность. Построенная средствами Excel по полученному списку находок ROC-кривая приведена ниже. На основе данных, приведённых в файле cyclin_n_profiles.xlsx, можно установить порог нормализованного веса, равный 670, который даёт 1 ошибку первого рода (0,16%; это число соответствует вероятности не определить последовательность, содержащую домен Cyclin_N согласно Pfam) и 2 ошибки второго рода (0,32%; это значение соответствует вероятности определить последовательность, не имеющую домена Cyclin_N по Pfam, как принадлежащую семейству).
Часть четвёртая >
Ссылки
- Файл cyclin_n.msf.
- Файл cyclin_n.prf.
- Файл cyclin_n_scores.txt.
- Файл cyclin_n_scaled.prf.
- Файл cyclin_n_scaled_sp_400.xls.
- Файл scores_tabbed.py.
- Файл check_if_cyclin_n.py.
- Файл cyclin_n_scaled_sp_400_boolean.xls.
- Файл cyclin_n_profiles.xlsx.