Пакет Pftools
1.Приготовка входного файла в формате msf
Так как pftools (в отличие от программ пакета EMBOSS) не умеет работать с файлами, имеющими конец строки, принятый в
Windows, поэтому были изменены признаки конца строки на UNIX-вые с помощью команды noreturn пакета EMBOSS:
noreturn
Remove carriage return from ASCII files
ASCII text file: prof_bact_pat.msf
ASCII text output file [prof_bact_pat.noreturn]:
2. Расчёт веса строк выравнивания программой pfw
pfw вычисляет новые веса для отдельных последовательностей в многократном выравнивании последовательности.
pfw prof_bact_pat.noreturn > prof_b_p_n_pfw.msf
В полученном файле, соответственно, веса разных последовательностей отличны от 1
(в отличие от файла, поданного на вход программе).
3. Создание профиля программой pfmake
pfmake делает профиль из множественного выравнивания.
pfmake prof_b_p_n_pfw.msf blosum62.cmp > prof_b_p_n_pfmake.msf
Полученный файл содержит некоторую матрицу, составляющую профиль.
На 5 строке записан алфавит (порядок аминокислот). В матрице после "SY = " указана аминокислота, которая чаще
всего в этой позиции встречается. В каждой строке подряд идут числа, которые означают веса аминокислот в данной строке
(=позиции; числа в том же порядке, что и аминокислоты в алфавите). После надписи "SY=", соответственно, идёт аминокислота,
у которой самый большой вес в строке.
4. Проверка профиля
Профиль, выданный программой полностью удовлетворяет составленному паттерну: [KR]-G-[KH]-G-X-Q-G-X-I-X-R-X(3)-{R}-R-G-P-[ME].
Поэтому никакие изменения не производились.
5. Подготовка файла с последовательностями в fasta-формате, в которых будет проводиться поиск
Для поиска во всех бактериальных последовательностях использовалась следующая команда:
seqret sw-org:bacteria bacteria.fasta
6. Нормирование профиля
Процедура нормировки меняет формулу пересчёта обычной суммы весов в так называемый нормированный вес,
что облегчает установку порога для данного профиля. Для нормировки требуется сгенерировать случайный банк
того же размера, что и мой, с помощью программы shuffleseq:
shuffleseq sw-org:bacteria shuffled.fasta
Далее был проведён "фальшивый поиск" для получения типичных значений веса профиля на случайных последовательностях:
pfsearch -C0.0 -f prof_b_p_n_pfmake.msf shuffled.fasta | sort -n > scores.txt
Затем была проведена нормировка профиля программой pfscale:
pfscale scores.txt prof_b_p_n_pfmake.msf > scaled.prf
Полученный файл абсолютно идентичен исходному.
7. Поиск по профилю
pfsearch сравнивает профиль с библиотекой последовательностей ДНК/белков.
pfsearch -C2.5 -f my.prf bacteria.fasta > my.pfsearch
Был установлен порог, равный 2,5. Кол-во находок - 966.
8. Анализ результатов
Файл Excel
Число верных находок ("True positive hits", TP) - 126
Число ложных находок ("False positive hits", FP) - 840
Число ненайденных белков подсемейства (ложноотрицательных результатов, "False negatives", FN) - 17
Чувствительность TP/(TP+FN) - 0,88
Селективность TP/(TP+FP) - 0,13
ROC-кривая
© Dzama Margarita, 2010-2011