Профили подсемейства белков


< Term 4

Выбор Подсемейства

В начале необходимо было выбрать подсемейство из выравнивания последовательностей домена, исследованного в прошлом практикуме. Подсемейство будем считать хорошим, если оно является кладой на дереве и если есть некоторые признаки (доменная архитектура, таксономическая принадлежность или диагностические позиции), по которым можно отнести домен к данному подсемейству. Я решила выбрать выделенное на рис. 1 подсемейство. Они образуют кладу и имеют диагностические позиции (например, №105,150 и 154). Таким образом, в подсемействе 18 последовательностей. Выбранные последовательности были сохранены в отдельный файл в формате .fasta.

Рис. 1. Выделенное в выравнивании подсемейство

Рис. 2. Отдельное выравнивание подсемейства

Построение профиля и поиск гомологов

Далее для полученного подсемейства необходимо было построить профиль. Для этого использовался пакет HMMER, использующий скрытые модели Маркова для анализа выравнивания последовательностей и поиска гомологов.

Сначала был построен профиль:
 hmm2build profile.out podsem1.fasta

Полученный файл c профилем был откалиброван:
 hmm2calibrate profile.out

Затем я скачала с сайта UniProt полноразмерные последовательности белков, содержащих мой домен.
По полученному файлу для итогового профиля был осуществлен поиск гомологов:
 hmm2search profile.out PF00042.fasta > findings.out

В итоговом файле findings.out содержатся все находки.

Анализ результатов

Для анализа результатов нам предложили использовать ROC-кривую и гистограмму весов находок.
ROC-кривая (Receiver Operator Characteristic) — кривая, которая наиболее часто используется для анализа качества моделей. ROC-кривая показывает зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров. Рассмотрим возможные результаты: TP (True Positives) — верно классифицированные положительные примеры (истинно положительные случаи). В нашем случае — это количество последовательностей, расположенных выше некоторого порога и достоверно содержащих искомый домен; TN (True Negatives) — верно классифицированные отрицательные примеры (истинно отрицательные случаи). В нашем случае — это количество последовательностей, расположенных ниже некоторого порога и достоверно не содержащих искомый домен; FP (False Positives) — отрицательные примеры, классифицированные как положительные (ошибка II рода); Это ложное обнаружение, т.к. при отсутствии события ошибочно выносится решение о его присутствии (ложно положительные случаи). В нашем случае — это количество последовательностей, расположенных выше некоторого порога, но не содержащих домен;
FN (False Negatives) — положительные примеры, классифицированные как отрицательные (ошибка I рода). Это так называемый "ложный пропуск" – когда интересующее нас событие ошибочно не обнаруживается (ложно отрицательные примеры). В нашем случае — это количество последовательностей, расположенных ниже некоторого порога и содержащих домен.
Специфичность (SP) — доля истинно отрицательных случаев, которые были правильно идентифицированы моделью (т.е. доля достоверно предсказанных белков, не содержащих домен, 2 от общего количества последовательностей, известно не содержащих этот домен).
Чувствительность (SE) — доля истинно положительных случаев (т.е. доля достоверно предсказанных белков, содержащих домен, от общего количества последовательностей,
известно содержащих домен. Из определений следуют формулы, по которым считаются данные показатели: SP = TN/(TN+FP)
SE = TP/(TP+FN)

Были проанализированы результаты поиска гомологов по профилю. Файл с находками был открыт в Excel (лист 'Лист1'), на другом листе ('Лист2') для каждого значения порога были подсчитаны TP, TN, FP и FN, а также SP и SN, а также значения 1-SP, построена ROC-кривая: по оси ОY откладывается SЕ, по оси ОX — 1–SP (сто процентов минус специфичность). Результат приведен на рис. 3. Итоговая таблица: table1.xlsx.


Рис. 3. Полученная ROC-кривая
Находок принадлежит подсемейству не принадлежит подсемейству Сумма
Выше порога по профилю 18 340 358
Ниже порога 0 1971 1971
Сумма 18 2311 2329
© Mishchenko Polina 2017