Профили

Построение профиля (pftools)

Из выравнивания, получнном в предыдущем практикуме, из JalView был сохранен файл selected.msf . Затем он был отредактирован с помощью следующих команд (в выравнивания добавлены веса последовательностей и был создан профиль):

приведение к правильному формату файла
seqret selected.msf msf::selected1.msf
noreturn -infile selected1.msf -outfile selected2.msf
добавление весов в выравнивание
pfw selected2.msf > selected_weighted.msf
создание профиля(команда строит профиль PROSITE на основании множественного выравнивания)
pfmake selected_weighted.msf /usr/share/pftools23/blosum62.cmp > selected.prf


Полученные файлы:
selected1.msf
selected2.msf

Нормализация профиля

Нормализацию профиля selected.prf можно выполнить с использованием банка случайных последовательностей (/srv/databases/uniprot/sprot_shuffled.fasta, полученный перемешиванием каждой из последовательностей swissprot).
команда поиска по профилю
pfsearch -C 10 -f selected.prf /srv/databases/uniprot/sprot_shuffled.fasta | sort -nr > selected_scores.txt
команда нормализации профиля
pfscale selected_scores.txt selected.prf > selected_scaled.prf

Поиск по профилю в банке SwissProt

Для поиска по банку SwissProt был использован нормализованный профиль selected_scaled.prf
команда поиска по профилю в SW
pfsearch -C 5.5 -f selected_scaled.prf /srv/databases/uniprot/sprot.fasta | sort -nr > selected_result.xls


C таким запросом находится очень много последовательностей(470069), поэтому выбрала порог нормализованного веса по SwissProt равным 400
команда поиска по профилю в SW
pfsearch -C 400.0 -f selected_scaled.prf /srv/databases/uniprot/sprot.fasta | sort -nr > selected_result_400.xls


Получила 437 последовательностей.

Полученная таблица

Анализ результатов поиска

В таблице отметим последовательности, в которых имеется домен RGS (из Pfam). Список последовательностей возьмем из предыдущих практикумов.

таблица c листами selected_result_400 и pfam

Построила график весов находок pfsearch. "Ступеньку" можно интерпретировать как порог нормализованного веса для находок из семейства (в данном случае равен 400):

Ступеньке соответствует нормализованный вес 672,861

ROC-кривая представляет собой зависимость чувтсвительности алгоритма классификации (TPR, true positive rate) от величины FPR (false positive rate), которую можно обозначить как 1-специфичность Построенная в Excel ROC-кривая по полученному списку находок

таблица (лист ROC)

На этой кривой есть перелом, как раз соответствующий порогу 672,861

Пороге нормализованного веса 672,861 дает 5 ошибок I рода (3,29%, это число соответствует вероятности не определить последовательность, содержащую домен RGS) и 9 ошибок II рода(5,92%, это значение соответствует вероятности определить последовательность, не имеющую домен RGS, как принадлежащую семейству.