Подсемейство считается хорошим, если оно является кладой на дереве и если есть некоторые признаки (доменная архитектура, таксономическая принадлежность или диагностические позиции), по которым можно отнести домен к данному подсемейству. Выбранные последовательности здесь |
Для полученного подсемейства был построен профиль. Для этого использовался пакет HMMER, использующий скрытые модели Маркова для анализа выравнивания последовательностей и поиска гомологов. |
Использованные комманды |
hmm2build profile.out domains.fa - построение профиля |
hmm2calibrate profile.out - колибровка файла
|
С сайта UniProt были скачаны полноразмерные последовательности белков. По полученному файлу для итогового профиля был осуществлен поиск гомологов |
hmm2search profile.out PF00569.fasta > findings.out |
В итоговом файле findings.out содержатся все находки. |
Анализ результатов |
Для анализа результатов была использована ROC-кривая и гистограмма весов находок. |
ROC-кривая (Receiver Operator Characteristic)— кривая, часто использующаяся для анализа качества моделей. ROC-кривая показывает зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров. |
TP (True Positives) — верно классифицированные положительные примеры (так называемые истинно положительные случаи). В нашем случае — это количество последовательностей, расположенных выше некоторого порога и достоверно содержащих искомый домен |
TN (True Negatives) — верно классифицированные отрицательные примеры (истинно отрицательные случаи). В нашем случае — это количество последовательностей, расположенных ниже некоторого порога и достоверно не содержащих искомый домен |
FP (False Positives) — отрицательные примеры, классифицированные как положительные (ошибка II рода); Это ложное обнаружение, т.к. при отсутствии события ошибочно выносится решение о его присутствии (ложно положительные случаи). В нашем случае — это количество последовательностей, расположенных выше некоторого порога, но не содержащих домен |
FN (False Negatives) — положительные примеры, классифицированные как отрицательные (ошибка I рода). Это так называемый "ложный пропуск" – когда интересующее нас событие ошибочно не обнаруживается (ложно отрицательные примеры). В нашем случае — это количество последовательностей, расположенных ниже некоторого порога и содержащих домен |
Для самого анализа, однако, важны не эти абсолютные значения, а относительные: специфичность и чувствительность. Специфичность (SP) — доля истинно отрицательных случаев, которые были правильно идентифицированы моделью (т.е. доля достоверно предсказанных белков, не содержащих домен, от общего количества последовательностей, известно не содержащих этот домен). Чувствительность (SE) — доля истинно положительных случаев (т.е. доля достоверно предсказанных белков, содержащих домен, от общего количества последовательностей, известно содержащих домен. Из определений следуют формулы, по которым считаются данные показатели |
SP = TN/(TN+FP) |
SE = TP/(TP+FN) |
С учетом выше еаписанного, были проанализированы результаты поиска гомологов по профилю. Для этого файл с находками был открыт в Excel (лист 'profile'). Затем на другом листе ('roc') для каждого значения порога были подсчитаны шесть описанных выше значения: TP, TN, FP и FN, а также SP и SN. Далее было посчитанно значения 1-SP и был построен график зависимости: по оси ОY откладывается SЕ, по оси ОX — 1–SP (сто процентов минус специфичность). Полученный график и есть ROC-кривая. Итоговая таблица |
Далее был выбран порог таким образом, чтобы SP и SE были одновременно максимальны. Это то же самое, что и максимальное значение SP+SE-1. Таким образом, порог составил 105, при этом SP=0.963 и SE=1. Как видно, модель профиля позволяет с большой достоверностью выделять подсемейство. |
С помощью Excel также была построена гистограмма весов находок. Необходимая таблица и сама гистограмма находится на листе 'hist'. На рис. 3 представлен полученный график. |
Рис. 1. Полученная ROC-кривая |
 |
Рис. 2. Полученная гистограмма весов находок |
 |
Таблица 1. Результаты поиска при выбранном пороге. |
Находок | принадлежит подсемейству | не принадлежит подсемействe | сумма |
выше порога по профилю | 18 | 220 | 238 |
ниже порога | 0 | 5798 | 5798 |
Сумма | 18 | 6018 | 6036 |
|