Профили подсемейства белков



*Сурикаты иллюстрируют "семейство"

Выбoр подсемейства



Рис. 1. Выравнивание доменов из предыдущего практикума. Последовательности объединены в группы в соответствии с кладами на дереве

Сначала необходимо было выбрать подсемейство из выравнивания последовательностей домена, исследованного в прошлом праке.

Подсемейство будем считать хорошим, если оно является кладой на дереве и если есть некоторые признаки (доменная архитектура, таксономическая принадлежность или диагностические позиции), по которым можно отнести домен к данному подсемейству. Я решила выбрать подсемейство, выделенное в выравнивании на рис. 1. Они образуют кладу и имеют диагностические позиции (например, №1 и 4). Таким образом, в подсемействе 18 последовательностей, а длина выравнивания последовательностей их доменов 47. Выбранные последовательности были сохранены в отдельный файл в формате .fasta.


Построение профиля и поиск гомологов



Далее для полученного подсемейства необходимо было построить профиль. Для этого использовался пакет HMMER, использующий скрытые модели Маркова для анализа выравнивания последовательностей и поиска гомологов.

Сначала был построен профиль:
 hmm2build profile.out domains.fa
Полученный файл c профилем был откалиброван:
 hmm2calibrate profile.out
Затем я скачала с сайта UniProt полноразмерные последовательности белков, содержащих мой домен. По полученному файлу для итогового профиля был осуществлен поиск гомологов:
 hmm2search profile.out PF00569.fasta > findings.out
В итоговом файле findings.out содержатся все находки.


Анализ результатов



Для анализа результатов нам предложили использовать ROC-кривую и гистограмму весов находок.

ROC-кривая (Receiver Operator Characteristic)— кривая, которая наиболее часто используется для анализа качества моделей. ROC-кривая показывает зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров. Рассмотрим возможные результаты:
Для самого анализа, однако, важны не эти абсолютные значения, а относительные: специфичность и чувствительность. Специфичность (SP) — доля истинно отрицательных случаев, которые были правильно идентифицированы моделью (т.е. доля достоверно предсказанных белков, не содержащих домен, от общего количества последовательностей, известно не содержащих этот домен). Чувствительность (SE) — доля истинно положительных случаев (т.е. доля достоверно предсказанных белков, содержащих домен, от общего количества последовательностей, известно содержащих домен. Из определений следуют формулы, по которым считаются данные показатели:
С использованием этих знаний, были проанализированы результаты поиска гомологов по профилю. Для этого файл с находками был открыт в Excel (лист 'profile'). Затем на другом листе ('roc') для каждого значения порога были подсчитаны шесть описанных выше значения: TP, TN, FP и FN, а также SP и SN. Далее я также посчитала значения 1-SP и построила график зависимости: по оси ОY откладывается SЕ, по оси ОX — 1–SP (сто процентов минус специфичность). Полученный график и есть ROC-кривая. Результат приведен на рис. 2. Итоговая таблица: results.xlsx.
Далее я выбрала порог таким образом, чтобы SP и SE были одновременно максимальны. Это то же самое, что и максимальное значение SP+SE-1. Таким образом, порог составил 105, при этом SP=0.963 и SE=1. Как видно, модель профиля позволяет с большой достоверностью выделять подсемейство.

С помощью Excel также была построена гистограмма весов находок. Необходимая таблица и сама гистограмма находится на листе 'hist'. На рис. 3 представлен полученный график.


Рис. 2. Полученная ROC-кривая

Рис. 3. Полученная гистограмма весов находок
Таблица 1. Результаты поиска при выбранном пороге
Находок принадлежит подсемейству не принадлежит подсемейству Сумма
выше порога по профилю 18 220 238
ниже порога 0 5798 5798
Сумма 18 6018 6036



Поиск гомологов с помощью psi-BLAST