Построение профиля

I

Выберем подсемейство, образованое b-протеобактериями, обладающими 2-ым типом архитектуры CHASE-домена. Его составляют последовательности: B2_A0A085FW95, B2_A0A0J1D9T5, B2_A0A0K1K5H9, B2_A0A0M2WIX1, B2_A0A0Q6W6B0, B2_A0A0Q8QRB5, B2_A0A0S4JYP5, B2_K9DEX9, B2_W0V4K9. Для построения профиля используем HMMER v.2. Для начала было построено выравнивание выбранного подсемейства. Далее была использованна программа hmm2build для построения профиля. Калибруем профиль при помощи hmm2calibrate. Теперь у нас есть откалиброваный профиль и мы можем произвести поиск по всем последовательностям из UniProt, включающих наш домен. Это производится командой hmm2search, результаты работы алгоритма запишем в файл profile_hits.

II

Следующий этап нашей работы — выбор порога для профиля. Для этого проводили анализ полученного ранее файла с находками в Excel. Excel-файл содержит лист с расчетами и начальными данными — «Данные» и лист с гистограммой и ROC-кривой — «Визуализация». Изображение гистограммы и ROC кривой представлены ниже.


Исходя из критерия максимальности суммы (чувствительности + специфичность) было получено пороговое значение счета = 425 и E-value = 4 * 10-125.

Распределение, наблюдаемое при данном пороговом счете и E-value, приведено на таблице ниже.

Принадлежит семейству Не пренадлежит Сумма
Счет больше порогового 9 7 16
Меньше порогового 0 3453 3453
Сумма 9 3460 3469