Практикум 10.
Семейство и подсемейство в Pfam.
В рамках данного задания я выбрала семейство белковых доменов, с которым работала на 1 курсе: Acyl-CoA oxidase (Ацил-КоА-оксидаза)
Информация о семействе:
- Название семейства (Name): Acyl-CoA oxidase
- Pfam AC: PF01756
- Pfam ID: ACOX
- Номер фермента (EC): 1.3.3.6
- Количество последовательностей в выравнивании seed: 218
- Количество последовательностей в выравнивании full: 10633
Данный фермент катализирует первую, скорость-лимитирующую реакцию β-окисления жирных кислот в пероксисомах, превращая ацил-КоА в транс-2-еноил-КоА. В ходе реакции происходит перенос электронов на молекулярный кислород с образованием перекиси водорода и одновременным восстановлением FAD до FADH₂.
Катализируемая реакция:
R–CH₂–CH₂–CO–SCoA + O₂ → R–CH=CH–CO–SCoA + H₂O₂
Таксономическая распространённость: домен встречается преимущественно у эукариот, однако также обнаружен у некоторых групп бактерий.
Было выбрано подсемейство белков с доменной архитектурой: PF14749 - PF14749 - PF02770 - PF22924 - PF01756. Репрезентативным белком является Acyl-coenzyme A oxidase (L5KM21_PTEAL).
Построение профиля HMM для подсемейства и определение порога специфичности.
Последовательности 27 белков данного подсемейства были скачены, затем вырезанные домены были выравнены с помощью программы muscle. В результате этого было получен файл align_domen.fasta.
Построение HMM профиля по 27 последовательностям доменов:
hmmbuild hmm.out align_domen.fasta
Затем были скачены все последовательности белков изучаемого семейства. После этого с помощью программы hmmsearch было проведено сравнение полученного ранее HMM профиля с полными последовательностями всех белков семейства. Результаты поиска были сохранены в табличном формате (--tblout) для удобства последующего анализа.
Использование hmmsearch:
hmmsearch --tblout results.txt hmm.out all_proteins.fasta
Для определения оптимального порога специфичности, позволяющего отделить подсемейство от остального семейства, сначала были извлечены Score для всех 27 белков подсемейства. С помощью следующей команды были получены идентификаторы белков и соответствующие им Score, отсортированные по возрастанию:
grep -E "A0A060YRY8|A0A218UFA0|A0A3L8SBN4|A0A4U1FT84|A0A6A1PXX5|A0A6P5TDZ4|A0A8C7P0L2|A0A8C7Q6Q7|A0A8S4S9A4|A0A9N9EEE9|A0A9Q0EVW7|A0A9Q0TA42|A0A9Q1DXW9|A0A9Q1FP30|A0AA40LG07|A0AAD8C3Z9|A0AAE1VI18|A0AAV4D8E2|A0AAV4JAN9|A0AAW1BZK7|A0AAY4A7Z7|A0ABR3R8A1|A0ACB8EK09|A0ACC2GEV9|L5KM21|W5N7N3|W9SEB7" results.txt | tr -s ' ' | cut -d' ' -f1,6 | sort -k2 -n
В результате была получена следующая выдача:
A0ABR3R8A1|unreviewed|Acyl-coenzyme 636.2 A0A9N9EEE9|unreviewed|Acyl-coenzyme 725.7 A0AAD8C3Z9|unreviewed|Acyl-coenzyme 829.1 A0AAV4JAN9|unreviewed|Acyl-coenzyme 831.0 A0A9Q0TA42|unreviewed|Acyl-coenzyme 834.0 A0A6P5TDZ4|unreviewed|Acyl-coenzyme 863.3 A0A8S4S9A4|unreviewed|Acyl-coenzyme 865.0 W9SEB7|unreviewed|Acyl-coenzyme 878.8 A0AAV4D8E2|unreviewed|Acyl-coenzyme 903.0 A0A9Q1FP30|unreviewed|Acyl-coenzyme 912.6 A0ACB8EK09|unreviewed|Peroxisomal 917.5 A0AAE1VI18|unreviewed|acyl-CoA 930.4 A0A060YRY8|unreviewed|Peroxisomal 1008.9 A0AAY4A7Z7|unreviewed|Acyl-coenzyme 1015.6 A0A8C7Q6Q7|unreviewed|Acyl-coenzyme 1033.2 A0A8C7P0L2|unreviewed|Acyl-coenzyme 1035.5 A0A9Q0EVW7|unreviewed|Acyl-coenzyme 1038.1 A0A6A1PXX5|unreviewed|Peroxisomal 1059.8 A0A4U1FT84|unreviewed|Acyl-coenzyme 1066.7 L5KM21|unreviewed|Acyl-coenzyme 1069.4 A0ACC2GEV9|unreviewed|Uncharacterized 1090.0 A0AAW1BZK7|unreviewed|Acyl-coenzyme 1094.5 A0AA40LG07|unreviewed|Acyl-coenzyme 1100.6 W5N7N3|unreviewed|Acyl-coenzyme 1114.1 A0A9Q1DXW9|unreviewed|Acyl-coenzyme 1117.0 A0A218UFA0|unreviewed|Acyl-coenzyme 1143.8 A0A3L8SBN4|unreviewed|Peroxisomal 1217.7
Для оценки оптимального пороговых значениях веса находки использовались метрики точность (Accuracy) и чувствительность (Sensitivity).
Численные характеристики выделения подсемейства профилем:
- TP — True Positives, число находок, принадлежащих подсемейству, с весом выше порога;
- FP — False Positives, число находок не из подсемейства, но с весом выше порога;
- FN — False Negatives, число находок из подсемейства, но с весом ниже порога;
- TN — True Negatives, число находок не из подсемейства и с весом ниже порога.
Формулы для расчёта метрик:
Затем я рассчитала метрики для нескольких Score, результаты приведены в таблице 1:
| Score | 636.2 | 725.7 | 829.1 | 831.0 | 834.0 | 863.3 |
|---|---|---|---|---|---|---|
| Accuracy | 0.8045 | 0.8572 | 0.8765 | 0.8772 | 0.8782 | 0.9014 |
| Sensitivity | 1.0000 | 0.9630 | 0.9259 | 0.8889 | 0.8519 | 0.8148 |
На основании данных, представленных в Таблице 1, в качестве оптимального порогового значения веса находки было выбрано значение Score = 725.7. При этом пороге достигается наилучший баланс между Accuracy и Sensitivity. Accuracy возрастает до 85.72% (по сравнению с 80.45% при минимальном пороге 636.2), что означает значительное сокращение числа ложноположительных находок. При этом Sensitivity остаётся на высоком уровне — 96.30%, то есть из 27 белков подсемейства порог прошли 26. Дальнейшее повышение порога приводит к более заметному падению чувствительности без существенного прироста точности, что делает значение 725.7 наиболее сбалансированным выбором.
| True | False | |
|---|---|---|
| Positives | 26 | 2459 |
| Negatives | 14743 | 1 |
Суммарное количество белков в анализируемой выборке составило 17229, а в анализируемом подсемействе - 27. При данном весе мы находим 26 (TP) белков из подсемейства и не находим 1 (FN). С помощью кода ниже можно посчитать количество строк с весом >= заданному порогу (725.7).
cat results.txt | tr -s ' ' | awk '$6 >= 725.7' | wc -l
Было найдено 2485 последовательностей, из которых 26 из изучаемого подсемейства, а 2459 (FP) не из подсемесйтва, но с весом >= 725.7. Поскольку суммарно 17229 последовательностей, то количество находок с Score < 725.7 составляет 14743, из которых 1 (FN) из подсемейства и 14743 (TN) - нет.
Файлы, лежащие в директории ~/term4/pr10 :
- align_domain.fasta — выровненные последовательности доменов для белков подсемейства.
- subfamily_seq.fasta — полные аминокислотные последовательности 27 белков подсемейства.
- hmm.out — HMM-профиль, построенный программой hmmbuild.
- all_proteins.fasta — последовательности белков семейства.
- results.txt — результат поиска, проведенного программой hmmsearch.