Карань Анна |
|||
Главная | О себе | Учеба | ФББ МГУ |
Профили
Задание 1. Построить профиль подсемейства и проверить его работу
Сначала необходимо было выбрать подсемейство из выравнивания последовательностей домена, исследованного в прошлом праке. Подсемейство будем считать хорошим, если оно является кладой на дереве и если есть некоторые признаки (доменная архитектура, таксономическая принадлежность или диагностические позиции), по которым можно отнести домен к данному подсемейству. Как подсемейство было выбрано 10 последовательностей, относящихся к Dikarya и имеющих одну доменную архитектуру - Cyclin_N, а также несколько диагностических позиций, например 131, 168 (Рис.1)
Рис.1 Выравнивание выбранного подсемейства
Далее для выбранного подсемейства необходимо построить профиль. Для этого использовалась программа HMMER. Сначала был построен профиль:
hmm2build profile.out fam_al.fasta |
Полученный файл - profile.out. Полученный файл был откалиброван:
hmm2calibrate profile.out |
Далее из практикума 11 был взят файл с последовательностями белков, содержащих исследуемый N домен циклина - uniprot.txt. По полученному файлу производился поиск гомологов по для итогового профиля:
hmm2search profile.out uniprot.txt > findings.out |
Все найденные гомологи лежат в файле - findings.out.
Построение ROC-кривой и гистограммы весов находок
ROC-кривая (англ. receiver operating characteristic, рабочая характеристика приёмника) — график, позволяющий оценить качество бинарной классификации, отображает соотношение между долей объектов от общего количества носителей признака, верно классифицированных как несущих признак, (true positive rate, TPR, называемой чувствительностью алгоритма классификации) и долей объектов от общего количества объектов, не несущих признака, ошибочно классифицированных как несущих признак (false positive rate, FPR, величина 1-FPR называется специфичностью алгоритма классификации) при варьировании порога решающего правила. Также известна как кривая ошибок. Анализ классификаций с применением ROC-кривых называется ROC-анализом. Файл с находками был открыт в Excel (лист 'profile'). Затем на другом листе ('roc') для каждого значения порога были подсчитаны шесть описанных выше значения: TP, TN, FP и FN, а также SP и SN. Также были посчитаны значения 1-SP и построен график зависимости SЕ от 1–SP (сто процентов минус специфичность). Полученный график и есть ROC-кривая (Рис.2 ). Файл Excel - results.xlsx. Эта кривая необходима для выбора порога, попробуем её воспользоваться. Наилучший порог тот, для которого SP и SE одновременно максимальны, т.е. лучшая чувствительность и специфичность, а это то же самое, что и максимальное значение SP+SE-1. Максимальное значение SP+SE-1 оказалось равно 0,88 для e-value равному 8.1E-99, при этом SP = 0,98, а SE = 0,9, т.е. подсемейство должно выделяться достаточно достоверно. На Рис. 3 показана гистограмма весов находок.
Рис.2. ROC-кривая |
Рис.3. Гистограмма весок находок |
©Карань Анна, 2015