Практикум №10. HMM профили доменов
1. Выбор семейства Pfam
Для выполнения работы мы выбрали семейство эволюционных доменов PF01584 (CheW-like domain). Это семейство объединяет белки, участвующие в сигнальном механизме хемотаксиса у бактерий.
- AC: PF01584
- Short name: CheW
- Name: CheW-like domain
Функция домена: Домен CheW-like взаимодействует с метилакцепторными хемотаксическими белками и передает сигнал белку CheY, который регулирует направление вращения жгутиков. Таким образом, CheW играет ключевую роль в способности бактерий перемещаться к источникам питательных веществ и от токсичных агентов.
- Количество последовательностей в seed: 194
- Количество последовательностей в full: 26,396
- Количество доменных структур: 210
Мы выбрали подсемейство с доменной архитектурой: PF00072 - PF13379 - PF01584, содержащей 20 белков.
Домен был вырезан и выравнен с помощью Muscle в программе Jalview: домен
2. Построение профиля HMM
На основе полученного выравнивания с помощью программы hmmbuild был построен HMM-профиль подсемейства:
hmmbuild prof_cheW.hmm ali2.fa
Получили файл, содержащий описание НММ-профиля: вероятности переходов между состояниями Match, Insert, Delete, а также позиционные веса для каждой аминокислоты.
3. Поиск профилем
Для поиска были скачаны все аннотированные белки с доменом PF01584 (34 последовательности). Поскольку наши 20 белков подсемейства не входят в их число, было принято решение добавить их вручную. В итоге получили файл.
не скачали все unreviewed, потому что их очень много (72к)
С помощью программы hmmsearch был выполнен поиск по этой базе с использованием построенного раннее HMM-профиля prof_cheW.hmm:
hmmsearch -o results.txt prof_cheW.hmm PF01584_54.fasta
Файл результатов results.txt содержит для каждого белка значение E-value и score. Эти данные были использованы для выбора оптимального порога и оценки качества поиска.
4. Выбор оптимального порога
Минимальный score среди белков подсемейства составил 181.6 (белок A0A7C1AYU8). Максимальный score среди рецензированных белков, не входящих в подсемейство, составил 136.3 (белок P0A964 и другие).
Между этими двумя значениями не было найдено ни одного белка, и для обеспечения надежного разделения был выбран порог 150, это значение не отсекает ни один из белков подсемейства (все они имеют score выше 150) и полностью исключает все рецензированные CheW-белки, которые не входят в подсемейство (их score ниже 150).
Таким образом, порог 150 является оптимальным для выделения нашего подсемейства.
| Score >= 150 | Score < 150 | |
|---|---|---|
| Подсемейство (20 белков) | TP = 20 | FN = 0 |
| Рецензированные белки PF01584 (34) | FP = 0 | TN = 34 |
Видно, что профиль HMM, построенный по 20 доменам CheW из архитектуры PF00072 - PF13379 - PF01584, идеально отделяет белки с этой архитектурой от других CheW-белков.
Таким образом, выбранное подсемейство успешно идентифицируется построенным HMM-профилем, а ложноположительные находки отсутствуют.