Практикум 10.

Семейство и подсемейство в Pfam.

В рамках данного задания я выбрала семейство белковых доменов, с которым работала на 1 курсе: Acyl-CoA oxidase (Ацил-КоА-оксидаза)

Информация о семействе:

Название семейства (Name): Acyl-CoA oxidase
Pfam AC: PF01756
Pfam ID: ACOX
Номер фермента (EC): 1.3.3.6
Количество последовательностей в выравнивании seed: 218
Количество последовательностей в выравнивании full: 10633

Данный фермент катализирует первую, скорость-лимитирующую реакцию β-окисления жирных кислот в пероксисомах, превращая ацил-КоА в транс-2-еноил-КоА. В ходе реакции происходит перенос электронов на молекулярный кислород с образованием перекиси водорода и одновременным восстановлением FAD до FADH₂.

Катализируемая реакция:
R–CH₂–CH₂–CO–SCoA + O₂ → R–CH=CH–CO–SCoA + H₂O₂

Таксономическая распространённость: домен встречается преимущественно у эукариот, однако также обнаружен у некоторых групп бактерий.

Было выбрано подсемейство белков с доменной архитектурой: PF14749 - PF14749 - PF02770 - PF22924 - PF01756. Репрезентативным белком является Acyl-coenzyme A oxidase (L5KM21_PTEAL).

Построение профиля HMM для подсемейства и определение порога специфичности.

Последовательности 27 белков данного подсемейства были скачены, затем вырезанные домены были выравнены с помощью программы muscle. В результате этого было получен файл align_domen.fasta.

Построение HMM профиля по 27 последовательностям доменов:

hmmbuild hmm.out align_domen.fasta

Затем были скачены все последовательности белков изучаемого семейства. После этого с помощью программы hmmsearch было проведено сравнение полученного ранее HMM профиля с полными последовательностями всех белков семейства. Результаты поиска были сохранены в табличном формате (--tblout) для удобства последующего анализа.

Использование hmmsearch:

hmmsearch --tblout results.txt hmm.out all_proteins.fasta

Для определения оптимального порога специфичности, позволяющего отделить подсемейство от остального семейства, сначала были извлечены Score для всех 27 белков подсемейства. С помощью следующей команды были получены идентификаторы белков и соответствующие им Score, отсортированные по возрастанию:

grep -E "A0A060YRY8|A0A218UFA0|A0A3L8SBN4|A0A4U1FT84|A0A6A1PXX5|A0A6P5TDZ4|A0A8C7P0L2|A0A8C7Q6Q7|A0A8S4S9A4|A0A9N9EEE9|A0A9Q0EVW7|A0A9Q0TA42|A0A9Q1DXW9|A0A9Q1FP30|A0AA40LG07|A0AAD8C3Z9|A0AAE1VI18|A0AAV4D8E2|A0AAV4JAN9|A0AAW1BZK7|A0AAY4A7Z7|A0ABR3R8A1|A0ACB8EK09|A0ACC2GEV9|L5KM21|W5N7N3|W9SEB7" results.txt | tr -s ' ' | cut -d' ' -f1,6 | sort -k2 -n

В результате была получена следующая выдача:

A0ABR3R8A1|unreviewed|Acyl-coenzyme 636.2
A0A9N9EEE9|unreviewed|Acyl-coenzyme 725.7
A0AAD8C3Z9|unreviewed|Acyl-coenzyme 829.1
A0AAV4JAN9|unreviewed|Acyl-coenzyme 831.0
A0A9Q0TA42|unreviewed|Acyl-coenzyme 834.0
A0A6P5TDZ4|unreviewed|Acyl-coenzyme 863.3
A0A8S4S9A4|unreviewed|Acyl-coenzyme 865.0
W9SEB7|unreviewed|Acyl-coenzyme 878.8
A0AAV4D8E2|unreviewed|Acyl-coenzyme 903.0
A0A9Q1FP30|unreviewed|Acyl-coenzyme 912.6
A0ACB8EK09|unreviewed|Peroxisomal 917.5
A0AAE1VI18|unreviewed|acyl-CoA 930.4
A0A060YRY8|unreviewed|Peroxisomal 1008.9
A0AAY4A7Z7|unreviewed|Acyl-coenzyme 1015.6
A0A8C7Q6Q7|unreviewed|Acyl-coenzyme 1033.2
A0A8C7P0L2|unreviewed|Acyl-coenzyme 1035.5
A0A9Q0EVW7|unreviewed|Acyl-coenzyme 1038.1
A0A6A1PXX5|unreviewed|Peroxisomal 1059.8
A0A4U1FT84|unreviewed|Acyl-coenzyme 1066.7
L5KM21|unreviewed|Acyl-coenzyme 1069.4
A0ACC2GEV9|unreviewed|Uncharacterized 1090.0
A0AAW1BZK7|unreviewed|Acyl-coenzyme 1094.5
A0AA40LG07|unreviewed|Acyl-coenzyme 1100.6
W5N7N3|unreviewed|Acyl-coenzyme 1114.1
A0A9Q1DXW9|unreviewed|Acyl-coenzyme 1117.0
A0A218UFA0|unreviewed|Acyl-coenzyme 1143.8
A0A3L8SBN4|unreviewed|Peroxisomal 1217.7

Для оценки оптимального пороговых значениях веса находки использовались метрики точность (Accuracy) и чувствительность (Sensitivity).

Численные характеристики выделения подсемейства профилем:

TP — True Positives, число находок, принадлежащих подсемейству, с весом выше порога;
FP — False Positives, число находок не из подсемейства, но с весом выше порога;
FN — False Negatives, число находок из подсемейства, но с весом ниже порога;
TN — True Negatives, число находок не из подсемейства и с весом ниже порога.

Формулы для расчёта метрик:

    Accuracy = 
    TP + TN
TP + TN + FP + FN

    Sensitivity = 
    TP
TP + FN

Затем я рассчитала метрики для нескольких Score, результаты приведены в таблице 1:

Таблица 1. Значения Accuracy и Sensitivity при различных значениях Score.

Score	636.2	725.7	829.1	831.0	834.0	863.3
Accuracy	0.8045	0.8572	0.8765	0.8772	0.8782	0.9014
Sensitivity	1.0000	0.9630	0.9259	0.8889	0.8519	0.8148

На основании данных, представленных в Таблице 1, в качестве оптимального порогового значения веса находки было выбрано значение Score = 725.7. При этом пороге достигается наилучший баланс между Accuracy и Sensitivity. Accuracy возрастает до 85.72% (по сравнению с 80.45% при минимальном пороге 636.2), что означает значительное сокращение числа ложноположительных находок. При этом Sensitivity остаётся на высоком уровне — 96.30%, то есть из 27 белков подсемейства порог прошли 26. Дальнейшее повышение порога приводит к более заметному падению чувствительности без существенного прироста точности, что делает значение 725.7 наиболее сбалансированным выбором.

Таблица 2. Численные характеристики для порога Score >= 725.7.

	True	False
Positives	26	2459
Negatives	14743	1

Суммарное количество белков в анализируемой выборке составило 17229, а в анализируемом подсемействе - 27. При данном весе мы находим 26 (TP) белков из подсемейства и не находим 1 (FN). С помощью кода ниже можно посчитать количество строк с весом >= заданному порогу (725.7).

cat results.txt | tr -s ' ' | awk '$6 >= 725.7' | wc -l

Было найдено 2485 последовательностей, из которых 26 из изучаемого подсемейства, а 2459 (FP) не из подсемесйтва, но с весом >= 725.7. Поскольку суммарно 17229 последовательностей, то количество находок с Score < 725.7 составляет 14743, из которых 1 (FN) из подсемейства и 14743 (TN) - нет.

Файлы, лежащие в директории ~/term4/pr10 :

align_domain.fasta — выровненные последовательности доменов для белков подсемейства.
subfamily_seq.fasta — полные аминокислотные последовательности 27 белков подсемейства.
hmm.out — HMM-профиль, построенный программой hmmbuild.
all_proteins.fasta — последовательности белков семейства.
results.txt — результат поиска, проведенного программой hmmsearch.