На страницу четвёртого семестра

Занятие 12. Пакет Pftools

  1. Рассчитать вес строк выравнивания

  2. В исходном файле каждая последовательность имела вес = 1. В обработанном файле, последовательности имеют разный вес, в зависимости от их "степени отличия" (чем сильнее последовательность отличается от остальных, тем больше её вес). Если сложить вес всех последовательностей - получится примерно единица.

  3. Создание профиля и поиск по профилю

  4. pfsearch -C2.0 -f my.prf bacteria.fasta > my.pfsearch
    Профиль - my.prf
    Находок было слишком много поэтому я поставила порог 2.0

  5. Анализ результатов

    • Нашлось 9778 последовательностей с весом больше 2
      С весом более 3 - 727 находки
      более 4 - 195
      более 5 - 59
      Максимальный вес - 5.53

    • Составила сводную таблицу - количество строк уменьшилось. Примерно в 260 белках было найдено по два участка.
      Файл Excel со сводной таблицей

    • Характеритстики списка найденых белков (порог - 2.0):
      Число верных находок ("True positive hits", TP) - 58
      Число ложных находок ("False positive hits", FP) - 9479
      Число ненайденных белков подсемейства ("False negatives", FN) - 0
      Чувствительность TP/(TP+FN) - 1
      Селективность TP/(TP+FP) - 0,0061

    • У созданнного на позапрошлом занятии паттерна селективность и чувствительность равнялись 1. Чтобы добиться такого же значения селективности у профиля , необходимо поставить порог 5,04. При таком пороге значение чувствительности у профиля (как и для всех белков, так и для S11)- 0,94.

    • ROC-кривая:




    • Я усовершенствовала профиль : увеличила вес Glu в шестой позиции (найденная консервативная позиция см. первое занятие этого блока), и уменьшила вес Gln в 12-ой позиции (Gln в 12 позиции у некоторых белков, не принадлежащих к подсеместву Bacillales, но имеющих большой суммарный вес). В результате, при пороге 5,1 профиль имеет чувствительность и селективность 1.


    • Вывод: pftools для данного семейства создаёт лучший профиль, чем prophecy, так как показатель чувствительности при той же селективности у него больше. Для pftools можно установить порог при котором все белки семейства найдены и не найдено ничего лишнего.
      © Медведева