I
Выберем подсемейство, образованое b-протеобактериями, обладающими 2-ым типом архитектуры CHASE-домена. Его составляют последовательности: B2_A0A085FW95, B2_A0A0J1D9T5, B2_A0A0K1K5H9, B2_A0A0M2WIX1, B2_A0A0Q6W6B0, B2_A0A0Q8QRB5, B2_A0A0S4JYP5, B2_K9DEX9, B2_W0V4K9. Для построения профиля используем HMMER v.2. Для начала было построено выравнивание выбранного подсемейства. Далее была использованна программа hmm2build для построения профиля. Калибруем профиль при помощи hmm2calibrate. Теперь у нас есть откалиброваный профиль и мы можем произвести поиск по всем последовательностям из UniProt, включающих наш домен. Это производится командой hmm2search, результаты работы алгоритма запишем в файл profile_hits.
II
Следующий этап нашей работы — выбор порога для профиля. Для этого проводили анализ полученного ранее файла с находками в Excel. Excel-файл содержит лист с расчетами и начальными данными — «Данные» и лист с гистограммой и ROC-кривой — «Визуализация». Изображение гистограммы и ROC кривой представлены ниже.
Исходя из критерия максимальности суммы (чувствительности + специфичность) было получено пороговое значение счета = 425 и E-value = 4 * 10-125.
Распределение, наблюдаемое при данном пороговом счете и E-value, приведено на таблице ниже.
| Принадлежит семейству | Не пренадлежит | Сумма | |
|---|---|---|---|
| Счет больше порогового | 9 | 7 | 16 |
| Меньше порогового | 0 | 3453 | 3453 |
| Сумма | 9 | 3460 | 3469 |