Белковые домены и HMM-профили

Построение HMM-профиля и выбор порогового веса

Описание выбранной архитектуры

Была выбрана двухдоменная архитектура Ras, SOCS_box:

В UniProtKB находится 1272 записи, содержащих по аннотации Pfam оба домена архитектуры (без уточнения о порядке этих доменов и о наличии дополнительных доменов), только 6 записей относятся к Swiss-Prot. Все записи являются белками Bilateria.
Функция белков с выбранной архитектурой не ясна. Белки подсемейства Rab, к которому по аннотации UniProt относятся выбранные белки, из семейства малых ГТФаз Ras обычно выполняют адресную функцию при транспорте везикул эндомембранной системы у эукариот. SOCS box домен обычно служит в белках адаптором для связывания с убиквитиназами E3. Судя по записям из Swiss-Prot рассматриваемые белки, возможно, входят в убиквитин-лигазный комплекс.

Ход работы

Для построения HMM-профиля белков выбранной архитектуры из UniProtKB были скачаны все 1272 записи белков, содержащие оба домена архитектуры. Затем из них были выбраны записи белков с найденной характерной длиной (200-300 aa), из них, в свою очередь, была сделана случайная выборка записей, в которую попали записи из 3 (если было возможным) организмов каждого класса с меньше, чем 3 семействами, и из 1 организма каждого семейства классов большей представленности. По белкам полученной выборки было построено выравнивание, использованное для построения HMM-профиля.

Для определения оптимального поргового веса (score cutoff) построенного профиля он был протестирован на полученном из UniProtKB наборе всех белков Metazoa, содержащих SOCS box домен (22197 записей): для каждого белка набора было определено входит ли он в множество 1272 записей с обоими доменами выбранной архитектуры, и веса, сгенерированного построенным профилем, каждого белка были определены чувствительность и специфичность профиля, если бы этот вес был принят за пороговый. Был выбран вес, обладающий наибольшей чувствительностью при максимальной специфичности.

Все промежуточные результаты: записи белков с обоими доменами выбранной архитектуры, записи белков, взятых для построения выравнивания, таблица определения порогового веса и матрицы ошибок для двух проверяемых весов – находятся в таблицах.

Вся работа проведена и подробно описана в Jupyter Notebook (загрузить файл анализа).

Все используемые здесь файлы хранятся в директории ~stepan_puhov/term4/block2/pr9

Результаты и обсуждение

В результате был получен HMM-профиль для определения белков с выбранной архитектурой.

В качестве порогового веса был выбран нормализованный вес равный 58 (мягкий порог).
Этот порог имеет 100% специфичность (если не считать одного формально ложного предсказание, которое, вероятно, всё же верно, см. обсуждение в Profile testing подраздел Defining the score cutoff или здесь) и высокую чувствительность. В целом для профиля изначально характерно хорошее соотношение чувствительности и специфичности для любого разумно выбранного веса (см. ROC curve и confusion matrices).
Однако, строго говоря, использованный метод расчёта чувствительность и специфичности применён не совсем корректно: помимо всех белков с SOCS box доменом, нужно было также протестировать все белки (хотя бы Bilateria) с Ras доменом, так как при потенциальном поиске профилем в геномах белки с одним лишь Ras доменом, возможно, будут обнаруживаться (как ложноположительные находки) при выбранном пороговом весе.

Главная страница


©Степан Пухов

2021