8 (926) 907 94 08 |
Всё на свете является чудом! |
||||||||||||||||
Профили |
|||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1.
Построение профиля pftools домена по выравниванию Выравнивание из практикума по эволюционным доменам было использовано для построения профиля pftools. С помощью программы pfw были добавлены в выравнивание веса последовательностей: pfw domains_this_end.msf > domains_this_weighted.msf Но перед этим файл привели к правильному формату: seqret domains_this_end.msf msf::domain_this_seqret.msf noreturn -infile domain_this_seqret.msf -outfile domain_this_no.msf Далее, используя команду pfmake, создали профиль на основании множественного выравнивания: pfmake domains_this_weighted.msf /usr/share/pftools23/blosum62.cmp > domains_this.prf Затем выполнили нормализацию профиля domains_this.prf с использованием банка случайных последовательностей: pfsearch -C 10 -f domains_this.prf /srv/databases/uniprot/sprot_shuffled.fasta | sort -nr > domains_this_scores.txt pfscale domains_this_scores.txt domains_this.prf > domains_this_scaled.prf 2. Поиск представителей в банке SwissProt Для поиска по банку SwissProt был использован полученный нормализованный профиль domains_this_scaled.prf, при этом порог нормализованного веса был установлен равным 1.0: pfsearch –C 1.0 –f domains_this_scaled.prf /srv/databases/uniprot/sprot.fasta | sort -nr > domains_this_scaled_sprot.xls С порогом 1.0 находок получилось очень много (619673), поэтому далее для поиска по банку SwissProt повысили используемый порог нормализованного веса до 350, тем самым уменьшив количество находок и сделав возможным работу с полученными данными в Excel (построение графика весов находок и ROC-кривой): pfsearch –C 350 –f domains_this_scaled.prf /srv/databases/uniprot/sprot.fasta | sort -nr > domains_this_scaled_sprot_350.xls В результате получили файл domains_this_scaled_sprot_350.xls, в котором содержится 1037 последовательностей. 3. Работа со списком находок В файле domains_this_scaled_sprot_350.xls были отмечены последовательности (при помощи формул Excel на листе "Main page"), для которых имеется домен ThiS согласно Pfam (лист "Domain"). Средствами Excel для полученного списка находок был построен график нормализованного веса находок, «ступеньку» на котором можно интерпретировать как порог нормализованного веса для находок из семейства (в данном случае равен 400): ROC-кривая представляет собой зависимость чувствительности алгоритма классификации (т. е. true positive rate, TPR) от величины FPR (false positive rate), которую можно обозначить как 1–специфичность. Построенная средствами Excel по полученному списку находок ROC-кривая (лист "ROC_curve") приведена ниже. На основе данных, приведённых в файле domains_this_scaled_sprot_350.xls, можно установить порог нормализованного веса, равный 580, который даёт 10 ошибок первого рода (0,96%; это число соответствует вероятности не определить последовательность, содержащую домен ThiS согласно Pfam) и 7 ошибок второго рода (0,68%; это значение соответствует вероятности определить последовательность, не имеющую домена ThiS по Pfam, как принадлежащую семейству). Расчёт ошибок представлен на листе "Summary".
|
Главная | ||||||||||||||||
Об авторе | |||||||||||||||||
Учебные семестры | |||||||||||||||||
Проекты автора | |||||||||||||||||
Друзья | |||||||||||||||||
Ссылки партнеров | |||||||||||||||||
Extra | |||||||||||||||||
Контакты | |||||||||||||||||
|
|||||||||||||||||
Mneff © 2011-2013 |