Описание выбранной архитектуры
Была выбрана двухдоменная архитектура Ras, SOCS_box:
В UniProtKB находится 1272 записи, содержащих по аннотации Pfam
оба домена архитектуры (без уточнения о порядке этих доменов и о наличии
дополнительных доменов), только 6 записей относятся к Swiss-Prot. Все
записи являются белками Bilateria.
Функция белков с выбранной архитектурой не ясна. Белки подсемейства Rab,
к которому по аннотации UniProt относятся выбранные белки, из семейства
малых ГТФаз Ras обычно выполняют адресную функцию при транспорте везикул
эндомембранной системы у эукариот. SOCS box домен обычно служит в белках
адаптором для связывания с убиквитиназами E3. Судя по записям из
Swiss-Prot рассматриваемые белки, возможно, входят в
убиквитин-лигазный комплекс.
|
Ход работы
Для построения HMM-профиля белков выбранной архитектуры из UniProtKB
были скачаны все 1272 записи белков, содержащие оба домена архитектуры. Затем
из них были выбраны записи белков с найденной характерной длиной (200-300 aa),
из них, в свою очередь, была сделана случайная выборка записей, в которую
попали записи из 3 (если было возможным) организмов каждого класса с меньше,
чем 3 семействами, и из 1 организма каждого семейства классов большей
представленности. По белкам полученной выборки было построено
выравнивание,
использованное для построения HMM-профиля.
Для определения оптимального поргового веса (score cutoff) построенного
профиля он был протестирован на полученном из UniProtKB наборе всех
белков Metazoa, содержащих SOCS box домен (22197 записей): для каждого
белка набора было определено входит ли он в множество 1272 записей с обоими
доменами
выбранной архитектуры, и веса, сгенерированного построенным
профилем, каждого белка были определены чувствительность и специфичность
профиля, если бы этот вес был принят за пороговый. Был выбран вес, обладающий
наибольшей чувствительностью при максимальной специфичности.
Все промежуточные результаты: записи белков с обоими доменами выбранной
архитектуры, записи белков, взятых для построения выравнивания, таблица
определения порогового веса и матрицы ошибок для двух проверяемых весов
– находятся в таблицах.
Вся работа
проведена и подробно описана в Jupyter Notebook
(загрузить файл анализа).
Все используемые здесь файлы хранятся в директории
~stepan_puhov/term4/block2/pr9
|
Результаты и обсуждение
В результате был получен HMM-профиль
для определения белков с выбранной архитектурой.
В качестве порогового веса был выбран нормализованный вес равный 58
(мягкий порог).
Этот порог имеет 100% специфичность (если не считать одного формально
ложного предсказание, которое, вероятно, всё же верно, см. обсуждение в
Profile testing подраздел Defining the score cutoff или
здесь) и высокую
чувствительность. В целом для профиля изначально характерно хорошее соотношение
чувствительности и специфичности для любого разумно выбранного веса
(см. ROC curve и confusion matrices).
Однако, строго говоря, использованный метод расчёта чувствительность и
специфичности применён не совсем корректно: помимо всех белков с
SOCS box доменом, нужно было также протестировать все белки (хотя бы
Bilateria) с Ras доменом, так как при потенциальном поиске профилем
в геномах белки с одним лишь Ras доменом, возможно, будут
обнаруживаться (как ложноположительные находки) при выбранном пороговом весе.
|