Учебный сайт

Бредихина Данилы

Учебный сайт Бредихина Данилы

Занятие 12: Анализ результатов поиска по профилю

< Часть третья

Разделение выравнивания представителей домена на две группы

Выравнивание представителей домена Cyclin_N cyclin_n_jalview_al.jar (cyclin_n.msf), полученное на одном из предыдущих занятий, было разделено на две группы последовательностей согласно доменной архитектуре белков. Такое деление позволит выяснить, возможно ли различить рассматриваемые доменные архитектуры по их профилям. Кроме того, такое разделение совпадает с разделением последовательностей в выравнивании на основании анализа построенных деревьев.

Таким образом, для построения профилей для выделенных групп были использованы выравнивания cyclin_n_a2.msf и cyclin_n_a3.msf последовательностей двухдоменной и трёхдоменной архитектуры соответственно.

Построение профиля, отличающего одну группу последовательностей от другой

Для создания профиля был использован пакет pftools (ниже приведены команды для добавления весов последовательностей в выравнивание и построения профиля):


pfw cyclin_n_a2.msf > cyclin_n_a2_w.msf
pfmake cyclin_n_a2_w.msf /usr/share/pftools23/blosum62.cmp > cyclin_n_a2.prf

pfw cyclin_n_a3.msf > cyclin_n_a3_w.msf
pfmake cyclin_n_a3_w.msf /usr/share/pftools23/blosum62.cmp > cyclin_n_a3.prf

Для осуществления поиска по последовательностям из обеих групп был составлен файл cyclin_n_a2_plus_a3.fasta (так как часть последовательностей находится не в SwissProt, а в TrEMBL, то программа seqret была применена дважды):


for line in $(sed -rne 's/\/.*//' -e 's/>//p' cyclin_n_al.fasta); do seqret trembl:$line seqs/$line; done
for line in $(sed -rne 's/\/.*//' -e 's/>//p' cyclin_n_al.fasta); do seqret sw:$line seqs/$line; done
for file in seqs/*; do less $file >> cyclin_n_a2_plus_a3.fasta; done

Поиск по профилю для последовательностей каждой из групп был осуществлён для полученного файла cyclin_n_a2_plus_a3.fasta, содержащего последовательности из обеих групп, с помощью программы pfsearch:


pfsearch -C 0.0 -f cyclin_n_a2.prf cyclin_n_a2_plus_a3.fasta | sort -nr > cyclin_n_scores_a2.txt
pfsearch -C 0.0 -f cyclin_n_a3.prf cyclin_n_a2_plus_a3.fasta | sort -nr > cyclin_n_scores_a3.txt

Полученные файлы cyclin_n_scores_a2.txt и cyclin_n_scores_a3.txt были импортированы в Excel (при этом был использован скрипт файлу scores_tabbed.py, который позволил отделить столбцы с информацией в выходных файлах программы pfsearch знаками табуляции).

Для того, чтобы судить о возможности различить рассматриваемые доменные архитектуры по их профилю, необходимо отметить в каждом из результатов поиска по последовательностям верно определённые последовательности, для чего был написан и применён скрипт check_architecture.py.

Стоит отметить, что среди результатов поиска некоторые последовательности встречаются несколько раз (по профилю находятся разные участки последовательности), при этом, как правило, второе вхождение последовательности в результаты поиска имеет вес значительно меньший, чем первое. Поэтому для последующего анализа результатов учитывались только первые вхождения последовательностей в результаты работы программы pfsearch (в файле файле cyclin_n_architectures.xlsx такие исключенные из анализа последовательности отмечены серым цветом).

По полученным данным, сохранённым в файле cyclin_n_architectures.xlsx были построены ROC-кривые и графики весов находок pfsearch для каждой из групп последовательностей:

На приведённых выше графиках весов находок pfsearch чётко различимы «ступеньки», которые можно интерпретировать как пороги для находок с соответствующей архитектурой. Порог веса для каждой из исследуемых групп, равный 20 и 52 для двухдоменной и трёхдоменной архитектур соответственно, позволяет получить следующие результаты:

Как видно, поиск с использованием построенных профилей не совершил ни одной ошибки при определении принадлежности последовательностей к той или иной группе. Таким образом, можно говорить о том, что представленные профили позволяют отличить заданные группы последовательностей.




Поиск представителей в банке SwissProt

Интересно выяснить, какие результаты будут получены, если произвести поиск по полученным профилям для двух доменных архитектур при поиске по банку SwissProt. При этом сначала выполним нормализацию построенных ранее профилей для двухдоменной и трёхдоменной архитектур:


pfsearch -C 1.5 -f cyclin_n_a2.prf /srv/databases/uniprot/sprot_shuffled.fasta | sort -nr > cyclin_n_scores_a2_sh.txt
pfscale cyclin_n_scores_a2_sh.txt cyclin_n_a2.prf > cyclin_n_a2_sh.prf
pfsearch -C 2.5 -f cyclin_n_a3.prf /srv/databases/uniprot/sprot_shuffled.fasta | sort -nr > cyclin_n_scores_a3_sh.txt
pfscale cyclin_n_scores_a3_sh.txt cyclin_n_a3.prf > cyclin_n_a3_sh.prf

Затем полученные нормализованные профили (1, 2) были использованы для поиска в банке последовательностей SwissProt:


pfsearch -C 400.0 -f cyclin_n_a2_sh.prf /srv/databases/uniprot/sprot.fasta | sort -nr > cyclin_n_scores_a2_sprot.txt
pfsearch -C 400.0 -f cyclin_n_a3_sh.prf /srv/databases/uniprot/sprot.fasta | sort -nr > cyclin_n_scores_a3_sprot.txt

После форматирования выдачи (скрипт для разделения знаками табуляции) и добавления информации о принадлежности находок к белкам одной из рассматриваемой доменных архитектур (скрипт) были построены следующие ROC-кривые и графики весов находок pfsearch:

Из полученных результатов (см. файл в формате .xlsx) видно, что для двухдоменной архитектуры был составлен профиль, по которому можно отличить в банке SwissProt последовательности с доменной архитектурой Cyclin_N + Cyclin_C, при этом изменение порога на вес (4200 или 600) может позволить достичь отсутствия ошибок второго или первого рода соответственно (выбор порога в подобных задачах зависит, как правило, от их цели).
Для трёхдоменной архитектуры было найдено лишь 6 белков из SwissProt с архитектурой F-box + Cyclin_N + Cyclin_C, все они находятся в вершине списка. Это можно объяснить как значительно меньшим количеством белков с этой архитектурой, согласно P-fam, по сравнению с рассмотренной выше двухдоменной архитектурой, так и тем, что немало белков с этой архитектурой находятся в банке TrEMBL.


Ссылки

  1. Файл cyclin_n_jalview_al.jar.
  2. Файл cyclin_n.msf.
  3. Файл cyclin_n_a2.msf.
  4. Файл cyclin_n_a3.msf.
  5. Файл cyclin_n_a2.prf.
  6. Файл cyclin_n_a3.prf.
  7. Файл cyclin_n_al.fasta.
  8. Файл cyclin_n_a2_plus_a3.fasta.
  9. Файл cyclin_n_scores_a2.txt.
  10. Файл cyclin_n_scores_a3.txt.
  11. Файл scores_tabbed.py.
  12. Файл check_architecture.py.
  13. Файл cyclin_n_architectures.xlsx.


  14. Файл cyclin_n_a2_sh.prf.
  15. Файл cyclin_n_a3_sh.prf.
  16. Файл cyclin_n_scores_a2_sprot.txt.
  17. Файл cyclin_n_scores_a3_sprot.txt.
  18. Файл assign_a2_or_a3.py.
  19. Файл cyclin_n_architectures_extended.xlsx.
< На страницу семестра ∧ Наверх