Профили

Построение профиля домена по выравниванию и поиск всех представителей в банке Uniprot/SwissProt

Подготавливаю выравнивание в формате MSF.

Использую полученное раннее выравнивание.

Выравнивание, сохраненное в msf из JalView, не подходит для программы pfmake, как и выравнивание, переведенное в msf с помощью seqret input.msf msf::output.msf - номера колонок оказываются в неположенном месте.

Сдвигаю номера позиций после seqret на положенное место, убираю символы возврата строки. Получаю align.msf.

Добавляю веса последовательностей в выравнивание:

pfw align.msf > weighted_alignment.msf

Создаю профиль my.prf:

pfmake weighted_alignment.msf /usr/share/pftools23/blosum62.cmp > my.prf

Создаю нормализованный профиль scaled.prf. Нормализация позволяет выбрать универсальный порог веса находки.

Для нормализации выбирается банк случайных последовательностей sprot_shuffled.fasta, полученный перемешиванием каждой из последовательностей swissprot. Запускаю команду поиска по профилю:

pfsearch –C 10 –f my.prf sprot_shuffled.fasta| sort -nr > scores.txt

Запускаю команду нормализации профиля:

pfscale scores.txt my.prf > scaled.prf

Для поиска по банку SwissProt всех представителей домена использую нормализованный профиль. Задаю порог нормализованного веса 1.0, считая, что находки с нормализованным весом более чем 1.0 - правильные. Использую SwissProt в fasta формате: sprot.fasta.

pfsearch –C 1.0 –f scaled.prf sprot.fasta| sort -nr > my.xls

Полученный файл содержит 441269 последовательностей (команды выполняются на kodomo по полдня!).

Порог нормализованного веса (-С 1.0) установлен низким, возможно много ложных находок. Задаю порог нормализованного веса 370.0:

pfsearch –C 437.0 –f scaled.prf sprot.fasta| sort -nr > mynew.xls

Полученный файл содержит 204 последовательности (предварительно, я убедилась, что столько будет достаточно для построения графика).

Сравниваю находки с наличием данного домена в них по аннотациям SwissProt. Отмечаю в таблице с находками последовательности, в которых имеется домен Pfam. Список последовательностей, содержащих данный домен, был получен при выполнении предыдущих заданий.

Строю график весов находок pfsearch, отсортированных по убыванию. Ступеньку на этом графике можно интерпретировать как порог нормализованного веса для находок из семейства. Результаты приведены в final.xls.

Также строю график весов для находок при поиске с порогом 1.0, полученный в файле all.xls.

Привожу графики, для находок с порогом 437.0 и 1.0 соответственно:

Строю ROC-кривую, считая находку правильной в том случае, если в ней имеется данный домен по данным Pfam.

ROC-кривая (receiver operating characteristic) — график, отображающий соотношение между долей верных положительных классификаций от общего числа положительных классификаций (true positive rate, чувствительность) с долей ошибочных положительных классификаций от общего числа отрицательных классификаций (false positive rate, 1 - специфичность) при варьировании порога решающего правила.

Порогом нормализованного веса можно считать число 1579.7 - дает 0 ошибок первого и второго рода.

Привожу ROC-кривую, построенную в файле final.xls:

Таким образом, удалось создать профиль, позволяющий отличить заданные группы последовательностей.


© Eugenia Prokhorova 2011