PFAM

Выбранные домены:

PF01966:
ID: HD
Название: HD domain
Число последовательностей: 186,899

PF18211:
ID: Csm1_B
Название: Csm1 subunit domain B
Число последовательностей: 1,031

Поиск был осуществлен следующей командой:

taxonomy:"Bacteria [2]" database:(type:pfam pf01966) database:(type:pfam pf18211)

Скачать Таблицу с белками

HMM профиль

Сначала я построил распределние длин белков.

https://upload.wikimedia.org/wikipedia/commons/thumb/f/fd/Color_icon_red.svg/220px-Color_icon_red.svg.png
Рисунок 1. Распределение длин белков.

Для того чтобы построить HMM профиль я взял 82 последовательности белков в диапазоне длин от 800 до 810 а.о.. Я скачал последовательности этих белков и построил по ним выравнивание. Скачать выравнивание Посмотрев на выравнивание я удалил несколько колонок с обоих концов выравнивания. Заново выровнял последовательности.
Это выравнивание я использовал для построения HMM профиля. Я запустил серию команд.

 hmm2build profile.hmm alignment_pr9.fa 
hmm2calibrate profile.hmm

Скачать профиль
Чтобы оценить полученный профиль – я скачал все белки, которые содержат домен pf01966 (186899 последовательностей).
В них я искал белки соответствующие полученному мной профилю:
hmm2search profile.hmm sequences_pr9.fasta 

Результаты поиска белков я обработал в python. Скачать скрипт. Я построил ROC curve и зависимость F1 от порога – в принципе они были не нужны. Среди находок было всего два ложно-положительных результатов. Это означает, что HMM профиль очень хороший. Можно взять порог -259.0 и тогда профиль будет иметь специфичность и чувствительность строго равные единице.

https://upload.wikimedia.org/wikipedia/commons/thumb/f/fd/Color_icon_red.svg/220px-Color_icon_red.svg.png
Рисунок 2. ROC curve.
https://upload.wikimedia.org/wikipedia/commons/thumb/f/fd/Color_icon_red.svg/220px-Color_icon_red.svg.png
Рисунок 3. Зависимость F1 от значения порога.
https://upload.wikimedia.org/wikipedia/commons/thumb/f/fd/Color_icon_red.svg/220px-Color_icon_red.svg.png
Рисунок 4. Нижняя часть таблицы с находками hmm2search.
https://upload.wikimedia.org/wikipedia/commons/thumb/f/fd/Color_icon_red.svg/220px-Color_icon_red.svg.png
Рисунок 5. Распределение весов находок.

Confusion matrix

True hitsFalse hits
Not rejected4370
Rejected0186462

Достаточно установить порог -260, даже такого низкого значения будет достаточно, чтобы разделить истинные белки с нужной доменной архитектурой от ложных. Это может быть из-за того, что я выбрал очень специфичные домены.

Назад

©Бакулин Артемий, 2018