Практикум №10. HMM профили доменов

1. Выбор семейства Pfam

Для выполнения работы мы выбрали семейство эволюционных доменов PF01584 (CheW-like domain). Это семейство объединяет белки, участвующие в сигнальном механизме хемотаксиса у бактерий.

Функция домена: Домен CheW-like взаимодействует с метилакцепторными хемотаксическими белками и передает сигнал белку CheY, который регулирует направление вращения жгутиков. Таким образом, CheW играет ключевую роль в способности бактерий перемещаться к источникам питательных веществ и от токсичных агентов.

Мы выбрали подсемейство с доменной архитектурой: PF00072 - PF13379 - PF01584, содержащей 20 белков.

Рис.1 Доменная архитектура подсемейства белков, выделенного на основе общей доменной архитектуры.

Домен был вырезан и выравнен с помощью Muscle в программе Jalview: домен

2. Построение профиля HMM

На основе полученного выравнивания с помощью программы hmmbuild был построен HMM-профиль подсемейства:

hmmbuild prof_cheW.hmm ali2.fa

Получили файл, содержащий описание НММ-профиля: вероятности переходов между состояниями Match, Insert, Delete, а также позиционные веса для каждой аминокислоты.

3. Поиск профилем

Для поиска были скачаны все аннотированные белки с доменом PF01584 (34 последовательности). Поскольку наши 20 белков подсемейства не входят в их число, было принято решение добавить их вручную. В итоге получили файл.

не скачали все unreviewed, потому что их очень много (72к)

С помощью программы hmmsearch был выполнен поиск по этой базе с использованием построенного раннее HMM-профиля prof_cheW.hmm:

hmmsearch -o results.txt prof_cheW.hmm PF01584_54.fasta

Файл результатов results.txt содержит для каждого белка значение E-value и score. Эти данные были использованы для выбора оптимального порога и оценки качества поиска.

4. Выбор оптимального порога

Минимальный score среди белков подсемейства составил 181.6 (белок A0A7C1AYU8). Максимальный score среди рецензированных белков, не входящих в подсемейство, составил 136.3 (белок P0A964 и другие).

Между этими двумя значениями не было найдено ни одного белка, и для обеспечения надежного разделения был выбран порог 150, это значение не отсекает ни один из белков подсемейства (все они имеют score выше 150) и полностью исключает все рецензированные CheW-белки, которые не входят в подсемейство (их score ниже 150).

Таким образом, порог 150 является оптимальным для выделения нашего подсемейства.

Score >= 150 Score < 150
Подсемейство (20 белков) TP = 20 FN = 0
Рецензированные белки PF01584 (34) FP = 0 TN = 34

Видно, что профиль HMM, построенный по 20 доменам CheW из архитектуры PF00072 - PF13379 - PF01584, идеально отделяет белки с этой архитектурой от других CheW-белков.

Таким образом, выбранное подсемейство успешно идентифицируется построенным HMM-профилем, а ложноположительные находки отсутствуют.