Практикум 10

Было выбрано семейство PF00318 (Ribosomal protein S2, ID: Ribosomal_S2). Последовательностей в seed: 319, в full: 22394.

Функция: сборка различных субъединиц рибосом.

Подсемейство: выделено по таксономии - Bacteria uS2.

Скачаем выравнивание SEED для PF00318 и оставим в нём только бактериальные последовательности. Количество последовательностей в выравнивании: 224.

Рис. 1 Выравнивание (окрашено Clustal by conservation)

Теперь построим профиль HMM по последовательностям доменов подсемейства.

hmmbuild rs2_subfamily.hmm rs2_subfamily.fasta

Результатом будет файл rs2_subfamily.hmm, который обучен распознавать именно бактериальные версии белка S2.

Чтобы проверить качество профиля, нужно найти его веса для всех членов семейства. Для этого скачаем файл со всеми последовательностями семейства с Pfam (reviewed - 1096). Потом запустим поиск профилем (программа hmmsearch) по этим белкам.

hmmsearch --tblout results.tblout rs2_subfamily.hmm protein-matching-PF00318.fasta

Оптимальный порог на вес для выделения подсемейства: 284.

Рис. 2 Отфильтрованные по таксономии результаты results.tblout. Оптимальный порог 284. До него много бактерий и несколько раз встретились эукариоты. После порога эукариоты преобладают и единожды встречаются бактерии.

Численные характеристики выделения подсемейства профилем:

TP Bacteria и Score > 284: 738
FP не Bacteria и Score > 284: 16
TN не Bacteria и Score =< 284: 330
FN Bacteria и Score =< 284: 12