I
Выберем подсемейство, образованое b-протеобактериями, обладающими 2-ым типом архитектуры CHASE-домена. Его составляют последовательности: B2_A0A085FW95
, B2_A0A0J1D9T5
, B2_A0A0K1K5H9
, B2_A0A0M2WIX1
, B2_A0A0Q6W6B0
, B2_A0A0Q8QRB5
, B2_A0A0S4JYP5
, B2_K9DEX9
, B2_W0V4K9
. Для построения профиля используем HMMER v.2
. Для начала было построено выравнивание выбранного подсемейства. Далее была использованна программа hmm2build
для построения профиля. Калибруем профиль при помощи hmm2calibrate
. Теперь у нас есть откалиброваный профиль и мы можем произвести поиск по всем последовательностям из UniProt
, включающих наш домен. Это производится командой hmm2search
, результаты работы алгоритма запишем в файл profile_hits
.
II
Следующий этап нашей работы — выбор порога для профиля. Для этого проводили анализ полученного ранее файла с находками в Excel
. Excel
-файл содержит лист с расчетами и начальными данными — «Данные» и лист с гистограммой и ROC-кривой — «Визуализация». Изображение гистограммы и ROC кривой представлены ниже.


Исходя из критерия максимальности суммы (чувствительности + специфичность) было получено пороговое значение счета = 425 и E-value = 4 * 10-125.
Распределение, наблюдаемое при данном пороговом счете и E-value, приведено на таблице ниже.
Принадлежит семейству | Не пренадлежит | Сумма | |
---|---|---|---|
Счет больше порогового | 9 | 7 | 16 |
Меньше порогового | 0 | 3453 | 3453 |
Сумма | 9 | 3460 | 3469 |