Построение профиля подсемейства


1. Выбoр подсемейства
В качестве подсемейства я взяла белки E, а выборки - верхнюю кладу, отмеченную красным на рисунке 1. В excel-файле выделены все представители выбранного подсемейства.
Выравнивание белков подсемейства.

2. Построение профиля
Далее необходимо было построить профиль по выборке такой, который будет ловить всех представителей подсемейства. Для этого был использован пакет HMMER, установленный на kodomo.
Профиль был построен следующей командой:
hmm2build profile.txt sem.fasta
Полученный файл c профилем был откалиброван:
hmm2calibrate profile.txt
С сайта UniProt я скачала полноразмерные последовательности белков, содержащих мой домен. По полученному файлу был осуществлен поиск гомологов:
hmm2search profile.txt PF10408_full_length_sequences.fasta > find.txt
Файл с находками

3. Проверка работы профиля
Для оценки качества профиля использую ROC-кривую (receiver operating characteristic). ROC-кривая показывает зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров.
Файл с находками был открыт в Excel, для каждого значения порога были подсчитаны значения: TP, TN, FP, FN, SP и SN. Затем был построен график в координатах 1-SP (по горизонтали) SЕ (по вертикали), который и есть ROC-кривая.
Результат приведен на рисунке 1. Итоговая таблица: profile.xlsx. Порог таким образом, чтобы одновременно максимизировать значения SP и SE. Это то же самое, что и максимальное значение SP+SE-1.
Порог составил 579.1 по весу и 7.9e-142 по e-value, при этом 1-SP=0.176, SE=0.5. При таких значениях подсемейство выделяется плохо, то есть модель профиля не достаточно достоверна. Это видно и по ROC-кривой.
Также была получена гистограмма весов находок, представленная на рисунке 2.
С таблице 1 приведены различные параметры поиска при выбранном пороге.
Итоговая таблица

Рис. 1 ROC-кривая Рис. 2 Гистограмма распределения весов находок
Таблица №1
Результаты поиска при выбранном пороге
На самом деле принадлежит подсемейству не принадлежит сумма
Выше порога по профилю 12 (TP) 210 (FP) 222
Ниже порога 12 (FN) 983 (TN) 995
сумма 24 1193 2434