8 (926) 907 94 08 Здесь должен быть мальчик с мензуркой!











Всё на свете является чудом!

 

Профили

1. Построение профиля pftools домена по выравниванию


Выравнивание из практикума по эволюционным доменам было использовано для построения профиля pftools. С помощью программы pfw были добавлены в выравнивание веса последовательностей:

pfw domains_this_end.msf > domains_this_weighted.msf

Но перед этим файл привели к правильному формату:

seqret domains_this_end.msf msf::domain_this_seqret.msf
noreturn -infile
d
omain_this_seqret.msf -outfile domain_this_no.msf

Далее, используя к
оманду pfmake, создали профиль на основании множественного выравнивания:


pfmake domains_this_weighted.msf /usr/share/pftools23/blosum62.cmp > domains_this.prf

Затем выполнили нормализацию профиля domains_this.prf с использованием банка случайных последовательностей:

pfsearch -C 10 -f domains_this.prf /srv/databases/uniprot/sprot_shuffled.fasta | sort -nr > domains_this_scores.txt
pfscale domains_this_scores.txt domains_this.prf > domains_this_scaled.prf

2. Поиск представителей в банке SwissProt

Для поиска по банку SwissProt был использован полученный нормализованный профиль domains_this_scaled.prf, при этом порог нормализованного веса был установлен равным 1.0:

pfsearch –C 1.0 –f domains_this_scaled.prf /srv/databases/uniprot/sprot.fasta | sort -nr > domains_this_scaled_sprot.xls

С порогом 1.0 находок получилось очень много (619673), поэтому далее для поиска по банку SwissProt повысили используемый порог нормализованного веса до 350, тем самым уменьшив количество находок и сделав возможным работу с полученными данными в Excel (построение графика весов находок и ROC-кривой
):

pfsearch –C 350 –f domains_this_scaled.prf /srv/databases/uniprot/sprot.fasta | sort -nr > domains_this_scaled_sprot_350.xls

В результате получили файл
domains_this_scaled_sprot_350.xls, в котором содержится 1037 последовательностей.

3. Работа со списком находок

В файле domains_this_scaled_sprot_350.xls были отмечены последовательности (при помощи формул Excel на листе "Main page"), для которых имеется домен ThiS согласно Pfam (лист "Domain"). Средствами Excel для полученного списка находок был построен график нормализованного веса находок, «ступеньку» на котором можно интерпретировать как порог нормализованного веса для находок из семейства (в данном случае равен 400):



ROC-кривая представляет собой зависимость чувствительности алгоритма классификации (т. е. true positive rate, TPR) от величины FPR (false positive rate), которую можно обозначить как 1–специфичность. Построенная средствами Excel по полученному списку находок ROC-кривая (лист "ROC_curve") приведена ниже.
 
На основе данных, приведённых в файле domains_this_scaled_sprot_350.xls, можно установить порог нормализованного веса, равный 580, который даёт 10 ошибок первого рода (0,96%; это число соответствует вероятности не определить последовательность, содержащую домен ThiS согласно Pfam) и 7 ошибок второго рода (0,68%; это значение соответствует вероятности определить последовательность, не имеющую домена ThiS по Pfam, как принадлежащую семейству).
Расчёт ошибок представлен на листе "Summary".

Есть домен Нет домена
Есть домен 25 7 32
Нет домена 10 995 1005
35 1002
Главная
Об авторе
Учебные семестры
Проекты автора
Друзья
Ссылки партнеров
Extra
Контакты


Главная Об авторе Учебные семестры Проекты автора Друзья Ссылки партнеров Extra Контакты

Mneff © 2011-2013